【崗位職責(zé)】 n 負(fù)責(zé)大模型訓(xùn)練與推理服務(wù)器集群的日常維護、監(jiān)控、部署和容量管理,確保系統(tǒng)穩(wěn)定、高效運行。 n 負(fù)責(zé)建立并完善應(yīng)急預(yù)案,快速響應(yīng)并定位故障;持續(xù)分析系統(tǒng)性能瓶頸,推動架構(gòu)、代碼及配置層面的深度優(yōu)化,提升模型服務(wù)效率。 n 與算法、開發(fā)、測試團隊緊密協(xié)作,提升部署、運維效率和標(biāo)準(zhǔn)化水平,高效交付運維需求。 n 參與大模型迭代計劃制定,協(xié)助驗證迭代版本的穩(wěn)定性與兼容性; n 主動追蹤大模型、AI框架、分布式計算及云原生等前沿技術(shù),保持大模型持續(xù)優(yōu)化,滿足客戶業(yè)務(wù)場景的性能要求。 【崗位要求】 n 學(xué)歷專業(yè):本科及以上學(xué)歷,計算機應(yīng)用技術(shù)/信息技術(shù)/軟件工程/機器學(xué)習(xí)等相關(guān)專業(yè)優(yōu)先; n 工作年限:1-3年 出差要求:臨時短期出差 n 崗位技能: 2 掌握shell腳本編程和python語言編程,能自行編寫腳本; 2 熟悉Linux系統(tǒng)運維或DevOps相關(guān)工作經(jīng)驗,熟悉Ubuntu系統(tǒng)管理與性能調(diào)優(yōu); 2 熟悉常用的系統(tǒng)組件和應(yīng)用組件安裝,如顯卡驅(qū)動、數(shù)據(jù)庫、鏡像倉庫、模型運行平臺等; 2 熟悉容器技術(shù),了解k8s基本原理,能部署和管理GPU工作負(fù)載; 2 了解Slurm、KubeFlow 或 AI平臺運維經(jīng)驗; 2 溝通協(xié)調(diào)能力較強,性格開朗,身體素質(zhì)好,有一定的抗壓能力。