崗位職責:
1、負責大模型訓練平臺的結(jié)構(gòu)設(shè)計、核心模塊開發(fā)與性能優(yōu)化,支持大規(guī)模分布式訓練任務(wù);
2、參與數(shù)據(jù)集的構(gòu)建、清洗、預(yù)處理以及高效存儲方案設(shè)計,確保數(shù)據(jù)質(zhì)量與訓練效率;
3、實現(xiàn)模型微調(diào)全流程工具鏈使用,包括參數(shù)配置、訓練策略優(yōu)化及資源調(diào)度;
4、開發(fā)模型驗證與評估系統(tǒng),設(shè)計自動化測試框架,確保模型效果符合業(yè)務(wù)需求;
5、跟蹤大模型技術(shù)前沿,探索高性能計算、顯存優(yōu)化等關(guān)鍵技術(shù)落地。
任職要求:
1、計算機相關(guān)專業(yè),3年以上Python開發(fā)經(jīng)驗;
2、熟悉大模型訓練框架(如PyTouch、DeepSpeed、Megatron-LM等),有模型訓練平臺開發(fā)經(jīng)驗;具備大模型應(yīng)用或大模型訓練平臺開發(fā)經(jīng)驗;
3、熟悉數(shù)據(jù)處理工具鏈(Pandas/Numpy/Dask等),具備大模型數(shù)據(jù)集構(gòu)建與管理經(jīng)驗;
4、熟悉Docker、kubernetes等容器技術(shù);
5、了解模型微調(diào)技術(shù)(如Lora、Adapter等)能獨立完成訓練流程開發(fā)與調(diào)優(yōu);
6、了解模型評估指標(如BLEU、ROUGE、準確率等)及驗證工具開發(fā);