崗位職責(zé)
? 負(fù)責(zé)構(gòu)建和維護(hù)算力事業(yè)部的 Kubernetes 集群平臺:包括 GPU 集群、邊緣集群、混合云集群。
? 開發(fā) Kubernetes Operator、CRD、調(diào)度插件,支持模型部署、推理服務(wù)、算力編排。
? 實現(xiàn)自動化:節(jié)點接入、健康檢查、滾動升級、節(jié)點隔離、故障恢復(fù)。
? 參與構(gòu)建 “云–邊–端一體化集群”,負(fù)責(zé) KubeEdge / Knative / 輕量容器運(yùn)行時落地。
? 和調(diào)度團(tuán)隊、模型團(tuán)隊協(xié)作,提供可靠的:
? GPU 驅(qū)動管理
? MIG / 多實例 GPU 配置
? 網(wǎng)絡(luò)優(yōu)化(RDMA、RoCE)
? 提升平臺的可觀測性與安全性。
崗位要求
? 精通 Kubernetes 原理,有 CRD/Operator 開發(fā)經(jīng)驗(至少一個可交付項目級經(jīng)驗)。
? 熟練使用 Golang。
? 熟悉容器運(yùn)行時(Docker、Containerd、CRI)。
? 熟悉 Prometheus、Grafana、Loki 等可觀測性工具。
? 對分布式系統(tǒng)、服務(wù)治理、網(wǎng)絡(luò)有基礎(chǔ)理解。