崗位職責(zé):
1.負(fù)責(zé)GPU軟件系統(tǒng)全鏈路測試,重點(diǎn)包括Runtime API、集合通信庫、RDMA網(wǎng)絡(luò)通信等功能、性能和穩(wěn)定性驗(yàn)證
2.開發(fā)和維護(hù)分布式通信測試框架,設(shè)計(jì)多機(jī)多卡通信場景的測試用例和質(zhì)量監(jiān)控體系
3.分析分布式訓(xùn)練中的通信性能瓶頸,定位CCL和RDMA相關(guān)問題的根本原因
4.構(gòu)建和維護(hù)多機(jī)多卡測試環(huán)境,包括GPU集群搭建、網(wǎng)絡(luò)配置和性能調(diào)優(yōu)
5.參與AI基礎(chǔ)設(shè)施質(zhì)量流程建設(shè),推動(dòng)分布式通信測試的自動(dòng)化和標(biāo)準(zhǔn)化
任職要求:
1.計(jì)算機(jī)科學(xué)/電子工程/通信工程等相關(guān)專業(yè)本科及以上學(xué)歷
2.熟悉Linux操作系統(tǒng)和網(wǎng)絡(luò)基礎(chǔ)知識(shí),具備GPU集群或分布式系統(tǒng)測試經(jīng)驗(yàn)
3.熟練掌握Python/C++等編程語言,具備自動(dòng)化測試開發(fā)和性能分析能力
4.熟悉GPU軟件棧架構(gòu),深入理解Runtime API工作機(jī)制,熟悉上下文、流、事件、內(nèi)存管理等核心概念
5.深入理解NCCL集合通信庫的架構(gòu)和實(shí)現(xiàn)原理,具備多機(jī)多卡通信測試經(jīng)驗(yàn)
6.熟悉RDMA網(wǎng)絡(luò)通信協(xié)議(InfiniBand、RoCE)及相關(guān)性能測試方法
7.掌握分布式訓(xùn)練和高性能計(jì)算相關(guān)知識(shí),對(duì)集合通信、AllReduce等算法有深入理解
8.熟悉Docker等虛擬化技術(shù),能夠構(gòu)建和維護(hù)分布式測試環(huán)境
9.了解PyTorch/TensorFlow等AI框架的分布式訓(xùn)練原理,具備多卡切分和端到端測試經(jīng)驗(yàn)
10.具備良好的溝通能力和團(tuán)隊(duì)協(xié)作精神,能夠推動(dòng)復(fù)雜技術(shù)問題的解決