崗位職責:
1.負責智算中心IT設(shè)施的交付,服務(wù)器上架與裝機;
2.負責智算中心IT設(shè)施設(shè)備的驗收與測試,bios、布線、接口等硬件參數(shù)調(diào)試;
3.負責服務(wù)器的故障處理和跟進、軟硬件參數(shù)調(diào)優(yōu)、軟硬件性能測試與優(yōu)化;
4.負責在硬件層面支持智算中心IT自動化運維平臺的開發(fā)、部署、日常運行優(yōu)化工作;
5.面向企業(yè)級AI計算和高性能計算應(yīng)用場景,組織實施智能算力集群的建設(shè)、運維、優(yōu)化工作:
6.評估各類異構(gòu)AI計算芯片,在各類場景下的適配性,組織算力調(diào)度系統(tǒng)研發(fā)工作;
7.設(shè)計、優(yōu)化、評估智算中心網(wǎng)絡(luò),測試、評估各類軟、硬件及方案適配性;
8.支撐算力用戶設(shè)計并實施個性化解決方案,配合用戶完成算力增值服務(wù)。
任職要求:
1.熟悉主流GPU硬件架構(gòu),熟悉環(huán)境部署,有智算中心排障調(diào)優(yōu)經(jīng)驗;
2.熟悉至少一種主流深度學(xué)習(xí)編程框架、熟悉智算底層架構(gòu)和實現(xiàn)機制;
3.熟悉liuxn,網(wǎng)絡(luò)設(shè)備、安全設(shè)備,有相關(guān)認證優(yōu)先;
4.有全流程的LLM/多模態(tài)大模型部署應(yīng)用經(jīng)驗,熟悉多機、多卡集群的部署、調(diào)優(yōu);
5.具備扎實的編程能力,良好的工程素養(yǎng),團隊合作能力和溝通能力強,抗壓能力強,具有較強的自我驅(qū)動力;
6、有云計算,存儲經(jīng)驗,有相關(guān)認證優(yōu)先;
7、熟悉Docker和Kubernetes;
8、一定的腳本編寫能力;
9、熟悉監(jiān)控工具;
10、對服務(wù)器硬件及參數(shù),硬件適配、排障有一定了解。