崗位職責(zé):
1. 負(fù)責(zé)AI產(chǎn)品及大模型(如NLP模型、對話模型、多模態(tài)模型等)的評測體系設(shè)計與實施,輸出結(jié)構(gòu)化評測報告;
2. 構(gòu)建和維護模型評測流程,包括自動化測試腳本、評測數(shù)據(jù)集、指標(biāo)體系等,保障評測工作的系統(tǒng)性與可復(fù)用性;
3. 結(jié)合模型訓(xùn)練策略(如SFT、RLHF等)設(shè)計定制化評測方案,參與模型調(diào)優(yōu)方向建議與效果驗證;
4. 了解主流模型評測基準(zhǔn)(Benchmark),如MMLU、TruthfulQA、MT-Bench、Arena、BIG-Bench等,能夠參與內(nèi)部對齊與復(fù)現(xiàn);
5. 與產(chǎn)品、算法、數(shù)據(jù)團隊協(xié)作,推動評測結(jié)果落地反饋至模型迭代閉環(huán)中
任職要求:
1. 計算機、人工智能等相關(guān)專業(yè)本科及以上學(xué)歷;
2. 熟練掌握Python,具備良好的代碼能力,能搭建評測工具鏈、調(diào)度流程及數(shù)據(jù)處理腳本;
3. 了解主流大語言模型訓(xùn)練流程,了解監(jiān)督微調(diào)(SFT)、指令微調(diào)、強化學(xué)習(xí)(如RLHF)等原理與流程;
4. 熟悉主流大模型評測基準(zhǔn)及其使用方法,了解至少一項benchmark的實際使用或復(fù)現(xiàn)經(jīng)驗;
5. 擁有良好的溝通、跨團隊協(xié)作和結(jié)構(gòu)化表達能力,能夠獨立完成評測設(shè)計與成果交付;
6. 具備AI評測或大模型相關(guān)經(jīng)驗優(yōu)先,熟悉評測自動化平臺(如EvalPlus、HELM、OpenCompass、DeepEval等)優(yōu)先