崗位職責(zé)
? 負(fù)責(zé)云環(huán)境搭建與管理,基于 K8s 部署 Spring Cloud 微服務(wù)、 IM / RTC 服務(wù)、小程序容器運(yùn)行環(huán)境。
? 構(gòu)建高可用運(yùn)維體系:設(shè)計(jì) CI/CD 流水線(Jenkins/GitLab CI)、灰度發(fā)布方案、監(jiān)控告警(Prometheus/Grafana)、日志分析(ELK),保障 IM 消息、音視頻通話穩(wěn)定性。
? 主導(dǎo)高并發(fā)容量規(guī)劃:壓測(cè),設(shè)計(jì)彈性伸縮策略,應(yīng)對(duì)百萬(wàn)級(jí) DAU 流量波動(dòng)。
? 落地海外合規(guī)運(yùn)維:數(shù)據(jù)本地化存儲(chǔ)、GDPR 合規(guī)審計(jì)、安全防護(hù)(防火墻 / 滲透測(cè)試),解決跨區(qū)域網(wǎng)絡(luò)延遲問(wèn)題。
? 管理云基礎(chǔ)設(shè)施(K8s、VPC、SLB、Redis、MQ、數(shù)據(jù)庫(kù)、CDN 等),優(yōu)化穩(wěn)定性及成本。
? 負(fù)責(zé)故障排查、事故復(fù)盤(pán)、SLO/SLA 制定和持續(xù)優(yōu)化,帶領(lǐng)運(yùn)維 / SRE 團(tuán)隊(duì)推進(jìn)自動(dòng)化、平臺(tái)化。
任職要求
? 6 年以上運(yùn)維 / SRE 經(jīng)驗(yàn),精通海外云平臺(tái)、Kubernetes、Docker 容器化技術(shù)。
? 深入理解分布式系統(tǒng)運(yùn)維,熟悉 Spring Cloud 微服務(wù)、Redis、MQ、數(shù)據(jù)庫(kù)(MySQL/NoSQL)、CDN 等組件的監(jiān)控與優(yōu)化。
? 有百萬(wàn)級(jí) DAU 高并發(fā)系統(tǒng)運(yùn)維經(jīng)驗(yàn),主導(dǎo)過(guò)社交 App 或音視頻平臺(tái)的穩(wěn)定性建設(shè),能快速排查海外網(wǎng)絡(luò)、服務(wù)故障。
? 熟練掌握自動(dòng)化腳本(Shell/Python)、基礎(chǔ)設(shè)施即代碼(Terraform/Ansible),熟悉 SLO/SLA 制定與故障復(fù)盤(pán)流程。
? 熟練掌握監(jiān)控與可觀測(cè)性工具(Prometheus、Grafana、ELK/EFK、SkyWalking/Jaeger 等)。
? 具備團(tuán)隊(duì)管理能力與跨團(tuán)隊(duì)溝通能力,了解海外合規(guī)要求(GDPR)。
加分項(xiàng)
? 英語(yǔ)良好
? 有IM / RTC服務(wù)運(yùn)維經(jīng)驗(yàn);
? 熟悉 Chaos Engineering、SRE 體系(Error Budget);
? 持有阿里云相關(guān)認(rèn)證(如 ACP);
? 有多區(qū)域部署與合規(guī)運(yùn)維經(jīng)驗(yàn)。