崗位職責:
負責 AI 系統(tǒng)(大模型服務(wù)、知識庫系統(tǒng)、數(shù)據(jù)處理流程等)的測試,包括功能測試、接口測試、性能測試等。
構(gòu)建大模型相關(guān)評測數(shù)據(jù)集,執(zhí)行模型效果驗證,包括問答準確率、生成質(zhì)量、召回率等指標。
對數(shù)據(jù)質(zhì)量進行審核,包括數(shù)據(jù)清洗、標簽檢查、一致性驗證與誤差分析。
參與構(gòu)建自動化測試體系,實現(xiàn)接口自動化、回歸測試與數(shù)據(jù) pipeline 的自動化驗證。
協(xié)助排查線上模型或數(shù)據(jù)問題,提供復現(xiàn)步驟與問題分析報告。
跟進版本發(fā)布流程,確保系統(tǒng)穩(wěn)定性與質(zhì)量可控。
任職要求:
熟練掌握基本測試方法、測試流程與測試用例設(shè)計。
有 API 測試、數(shù)據(jù)驗證測試或自動化測試經(jīng)驗。
具備基礎(chǔ)編程能力(Python/Java),可編寫腳本實現(xiàn)自動化驗證邏輯。
熟悉大模型相關(guān)評測指標者優(yōu)先,如 BLEU、ROUGE、Recall、Precision、Hallucination 檢查等。
具備數(shù)據(jù)敏感度,能識別數(shù)據(jù)異常、數(shù)據(jù)漂移、標注不一致等問題。
有 AI 產(chǎn)品測試、數(shù)據(jù) QA、模型評測經(jīng)驗者優(yōu)先。