崗位職責:
1. 負責云原生平臺的搭建和維護,包括但不限于CI/CD,自動化測試,監(jiān)控告警,數(shù)據(jù)安全和災備等;
2. 負責運維規(guī)范流程的設計和推廣;
3. 負責與技術團隊的協(xié)作,并對重點項目提供必要的技術保障與支持;
4. 負責應用系統(tǒng)的性能分析與架構優(yōu)化,不斷提高系統(tǒng)運行效率。
技能要求:
1.精通Kubernetes核心概念(Pod/Deployment/Service/Ingress/CRD)及運維操作(kubectl/Helm/Operator);熟悉容器技術(Docker/Containerd)及鏡像倉庫管理(Harbor)。
2.熟練使用KubeSphere平臺,掌握其多集群管理、應用治理、微服務治理等高級功能。
3.熟悉 DevOps 理念及相關生態(tài),具備2年以上大規(guī)模高可用分布式系統(tǒng)集群的實踐經(jīng)驗。
4.熟悉Linux操作系統(tǒng)及常用命令,具備Shell腳本編程能力。
5.具備較強的問題分析和解決能力,務實主動且有良好的溝通協(xié)作能力。
6.熟練掌握大模型訓練/推理框架及分布式系統(tǒng)運維,具備GPU集群管理、性能調優(yōu)及故障排查能力。
7.要求具備大規(guī)模AI系統(tǒng)運維經(jīng)驗,熟悉LLM全鏈路監(jiān)控告警體系,擁有多場景模型部署優(yōu)化實戰(zhàn)能力,兼具自動化運維開發(fā)及跨團隊協(xié)同經(jīng)驗者優(yōu)先。