崗位職責(zé):
1.開展公司兩級智算中心算力相關(guān)的運營工作,主要內(nèi)容包括算力資源管理、算力技術(shù)支持、算力培訓(xùn)推廣、算力兩級協(xié)同等內(nèi)容;
2.負責(zé)圍繞模型訓(xùn)練與推理任務(wù)對算力相關(guān)需求,構(gòu)建統(tǒng)一規(guī)范、動態(tài)調(diào)度、安全可控的兩級算力運營體系,并輸出相關(guān)的算力運營標準;
3.負責(zé)算力需求受理及算力需求核算等工作,針對訓(xùn)練場景、推理場景能夠建立算力-模型匹配關(guān)系,并借助壓測手段給出匹配最優(yōu)算力資源的建議,核算算力需求后進行分配;
4.負責(zé)算力調(diào)度相關(guān)技術(shù)的研究和實施,能夠根據(jù)算力資源指標監(jiān)控等技術(shù),對不同場景算力資源應(yīng)用趨勢提出總結(jié)建議,并能夠進行彈性擴縮容;
5.負責(zé)算力運監(jiān)監(jiān)測指標的梳理,能夠基于監(jiān)測技術(shù)構(gòu)建算力運營指標監(jiān)測體系,幫助開展算力資源規(guī)劃設(shè)計關(guān)工作;
6.精通AI基礎(chǔ)設(shè)施和人工智能軟件,能夠定期對市面上主流的大模型、人工智能芯片、無損網(wǎng)絡(luò)等軟硬件產(chǎn)品開展調(diào)研,并形成調(diào)研報告,指導(dǎo)公司后續(xù)智算中心算力規(guī)劃和建設(shè)。
任職要求:
1.本科及以上學(xué)歷,計算機/電子工程相關(guān)專業(yè);具備3年以上GPU集群/智算中心運維運營經(jīng)驗;熟悉Python、Ansible,有一定的編程能力;
2.精通人工智能大模型訓(xùn)練微調(diào)、推理部署全棧流程,能夠與模型研發(fā)團隊協(xié)作預(yù)估算力需求,具備分析訓(xùn)練微調(diào)、推理部署任務(wù)日志,進行簡單問題定位能力;
3.精通Kubernetes/Docker容器化技術(shù),具備設(shè)計GPU/NPU集群調(diào)度策略,優(yōu)化資源利用率,實現(xiàn)算力資源的高效利用的能力;
4.對算力-模型匹配關(guān)系有深度認知,熟悉模型部署與壓測相關(guān)技術(shù),能夠針對模型特性,通過壓測手段給出匹配最優(yōu)算力資源的建議;
5.精通promethous/Grafana等監(jiān)控軟件,能夠通過預(yù)埋探針檢測算力使用瓶頸,并建立彈性伸縮機制,輸出算力效能分析報告等能力;
6.熟悉智算中心訓(xùn)練微調(diào)、推理部署場景下相應(yīng)的組網(wǎng)方案,能夠給出組網(wǎng)規(guī)劃;
7.熟悉NVIDIA CUDA生態(tài)或華為昇騰CANN生態(tài)及Pytorch、TensorFlow、SGLang、Vllm等主流AI框架;
8.有智算中心算力、平臺、模型、智能體整體規(guī)劃設(shè)計和建設(shè)實施工作經(jīng)驗的可以優(yōu)先考慮;
9.對工作充滿激情,富有責(zé)任心,溝通能力強,能承受工作壓力。