【職位描述】
1.基于云原生技術(shù)體系(如 Kubernetes、容器等)構(gòu)建高可用、高擴(kuò)展性的平臺基礎(chǔ)設(shè)施;
2.推進(jìn)平臺架構(gòu)演進(jìn)與工程體系建設(shè),提升模塊解耦性、可維護(hù)性與系統(tǒng)穩(wěn)定性;
3.協(xié)同模型訓(xùn)練、推理服務(wù)、資源調(diào)度系統(tǒng)等上下游模塊,推動平臺能力持續(xù)完善與集成閉環(huán);
4.優(yōu)化平臺的使用體驗與開發(fā)效率,持續(xù)提升平臺產(chǎn)品化水平與工程質(zhì)量。
5.搭建通用workflow數(shù)據(jù)鏈路平臺,支持業(yè)務(wù)需求迭代。
【任職要求】
1.熟練掌握 Go/Python 語言,具備扎實的系統(tǒng)開發(fā)能力與良好的工程規(guī)范;
2.熟悉 Kubernetes 原理與生態(tài)體系,具備 CRD、Controller、Operator 等實際開發(fā)經(jīng)驗;
3.有使用或集成 Argo,Kueue、Volcano、Koordinator 等 Kubernetes 調(diào)度與資源管理框架經(jīng)驗,了解隊列管理、GPU 資源隔離、任務(wù)調(diào)度策略等常見場景者優(yōu)先;
4.有訓(xùn)練/推理平臺、機(jī)器學(xué)習(xí)平臺、MLOps ,Workflow工作流系統(tǒng)等相關(guān)平臺開發(fā)經(jīng)驗者優(yōu)先;
5.具備良好的系統(tǒng)設(shè)計能力,能獨立承擔(dān)模塊設(shè)計與編碼落地,推動平臺能力標(biāo)準(zhǔn)化與工程化演進(jìn)。