1. 負責公司大模型的微調(diào)工作,依據(jù)業(yè)務場景與需求,優(yōu)化模型性能,提升模型在特定任務上的表現(xiàn)。
2. 參與構建和優(yōu)化大模型微調(diào)流程,從數(shù)據(jù)預處理、模型選擇、超參數(shù)調(diào)整到模型評估,確保每個環(huán)節(jié)高效運行。
3. 分析和理解業(yè)務數(shù)據(jù),挖掘數(shù)據(jù)價值,設計并執(zhí)行數(shù)據(jù)增強策略,提高模型的泛化能力與適應性。
4. 跟蹤大模型領域的前沿技術,持續(xù)探索新的微調(diào)方法和策略,將其應用于實際項目中,推動技術創(chuàng)新。
5. 與產(chǎn)品團隊緊密合作,理解產(chǎn)品需求,提供技術支持,確保大模型在產(chǎn)品中的有效應用。
1. 學歷與專業(yè):計算機科學、人工智能、數(shù)學等相關專業(yè),碩士及以上學歷優(yōu)先。
2. 工作經(jīng)驗:3年以上大模型微調(diào)或相關工作經(jīng)驗,有成功的大模型微調(diào)項目案例。
3. 技術能力:
- 深入理解機器學習、深度學習原理,熟悉Transformer架構及其變體,如BERT、GPT、T5等主流模型架構。
- 熟練掌握大模型微調(diào)技術,如Prompt Tuning、LoRA、P - tuning等,并能根據(jù)實際任務靈活選擇和應用。
- 精通Python編程語言,熟悉PyTorch或TensorFlow深度學習框架,以及Deepspeed、Accelerate等大模型訓練工具鏈。
- 熟悉常見的啟發(fā)式算法,如模擬退火算法、遺傳算法蟻群優(yōu)化算法等。
- 熟悉Hugging Face、LangChain等開源生態(tài),能夠利用開源工具和模型快速實現(xiàn)大模型的微調(diào)與應用。
- 掌握分布式訓練、模型并行與混合精度優(yōu)化方法,能夠在多GPU環(huán)境下高效訓練大模型。
4. 算法與實踐:具備扎實的算法功底,能獨立復現(xiàn)前沿論文中的算法和模型,有千億參數(shù)模型訓練經(jīng)驗者優(yōu)先。
5. 其他能力:具有良好的團隊合作精神和溝通能力,能夠適應快速迭代的工作環(huán)境,具備較強的學習能力和問題解決能力 。