崗位概述
負(fù)責(zé)公司?研 8 卡 NVIDIA 5090 GPU ?冷服務(wù)器 的整機(jī)?案設(shè)計(jì)、驗(yàn)證及持續(xù)迭代,? 向 PCIe 5.0 架構(gòu)的多 GPU 系統(tǒng)形態(tài),解決整機(jī)結(jié)構(gòu)、散熱、?冷可靠性、功耗與系統(tǒng)穩(wěn)定 性等關(guān)鍵?程問題,并?撐多卡 NCCL 推理場景 的穩(wěn)定運(yùn)?。
?作內(nèi)容
? 主導(dǎo) 8 卡 5090 GPU ?冷服務(wù)器 整機(jī)?案設(shè)計(jì)與系統(tǒng)架構(gòu)規(guī)劃,覆蓋結(jié)構(gòu)布局、散熱 ?案、功耗與可靠性設(shè)計(jì)。
? 負(fù)責(zé)服務(wù)器整機(jī)從?案設(shè)計(jì)、樣機(jī)驗(yàn)證到?程迭代的完整流程,推動(dòng)問題閉環(huán)與持續(xù) 優(yōu)化。
? 參與并主導(dǎo)服務(wù)器關(guān)鍵部件選型與系統(tǒng)集成,包括 CPU(AMD / Intel)、GPU、內(nèi) 存、存儲(chǔ)、陣列卡、?卡、電源及?冷相關(guān)組件,確保整機(jī)兼容性與性能?標(biāo)達(dá)成。
? 組織并執(zhí)?整機(jī)驗(yàn)證與測試?作,包括熱性能、?冷系統(tǒng)可靠性、整機(jī)穩(wěn)定性及可維 護(hù)性測試,并基于測試結(jié)果推動(dòng)設(shè)計(jì)迭代。
? 負(fù)責(zé)與?冷及關(guān)鍵硬件供應(yīng)商的技術(shù)對接與管理,包括?案評審、樣機(jī)測試、質(zhì)量評 估、交付驗(yàn)收及部署?持。
? ?持服務(wù)器的部署與驗(yàn)收,參與現(xiàn)場問題分析與解決,保障系統(tǒng)穩(wěn)定運(yùn)?。
? 持續(xù)跟蹤?業(yè)技術(shù)趨勢與競品?案,結(jié)合實(shí)際?程約束,輸出可落地的整機(jī)與?冷? 案優(yōu)化建議。
任職要求
? 5 年以上 X86 服務(wù)器 / GPU 服務(wù)器 相關(guān)?業(yè)經(jīng)驗(yàn),具備?密度或 8 卡 GPU 服務(wù)器項(xiàng) ?經(jīng)驗(yàn)者優(yōu)先。
? 具備服務(wù)器整機(jī)系統(tǒng)級設(shè)計(jì)能?,能夠獨(dú)?承擔(dān)從?案設(shè)計(jì)、樣機(jī)驗(yàn)證到量產(chǎn)落地的 完整?程流程。
? 熟悉服務(wù)器整體架構(gòu)及關(guān)鍵部件技術(shù)路線,包括 AMD / Intel CPU、GPU、內(nèi)存、存 儲(chǔ)、陣列卡、?卡及電源。
? 熟悉 PCIe 5.0 架構(gòu)及多 GPU 系統(tǒng)設(shè)計(jì)要點(diǎn),理解 NCCL 等多卡通信?式在推理場景 下對整機(jī)架構(gòu)與系統(tǒng)穩(wěn)定性的影響。
? 熟悉服務(wù)器?冷系統(tǒng)及關(guān)鍵組件(冷板、泵、管路、熱交換器等)的基本原理與應(yīng) ?,具備整機(jī)布局與散熱路徑規(guī)劃能?。
? 熟悉服務(wù)器 可靠性、可?產(chǎn)性、可維護(hù)性(DFX) 設(shè)計(jì)原則,有實(shí)際量產(chǎn)經(jīng)驗(yàn)者優(yōu) 先。
加分項(xiàng)
? 有 GPU 推理服務(wù)器 或?冷服務(wù)器實(shí)際落地經(jīng)驗(yàn)。
? 參與過服務(wù)器規(guī)?;渴稹⒔桓痘驍?shù)據(jù)中?上線項(xiàng)?。
? 具備較強(qiáng)的供應(yīng)商協(xié)同、技術(shù)評審及跨團(tuán)隊(duì)推進(jìn)能?。
薪酬區(qū)間:60-120 萬年包(14 薪(12+2)結(jié)構(gòu),按工資基數(shù)全額繳納五險(xiǎn)一金)