崗位要求:1.學(xué)歷與經(jīng)驗(yàn): 本科及以上學(xué)歷。具備1-3年數(shù)據(jù)標(biāo)注、質(zhì)量評測、內(nèi)容審核或相關(guān)領(lǐng)域經(jīng)驗(yàn);行業(yè)背景不限(互聯(lián)網(wǎng)、咨詢、傳統(tǒng)行業(yè)相關(guān)評測經(jīng)驗(yàn)均可)。對AIGC相關(guān)產(chǎn)品,例如豆包、可靈、GPT-4O、Midjourney、Stable Diffusion等 一種或幾種有較深度使用經(jīng)驗(yàn),對于圖生文/文生圖/文生視頻技術(shù)特點(diǎn)和能力邊界有較深刻的認(rèn)識。有訓(xùn)練lora或者使用comfyui經(jīng)歷的可加分。
2.邏輯思維: 具備清晰的邏輯判斷能力,能夠識破復(fù)雜的文字邏輯陷阱,對內(nèi)容的一致性和合理性有較強(qiáng)的辨識度。
3.主觀感知力(高情商表現(xiàn)): 具備優(yōu)秀的語義感知力,不僅能判斷對錯(cuò),還能感知回復(fù)內(nèi)容的“質(zhì)感”,對主觀體驗(yàn)的好壞有敏銳且準(zhǔn)確的判斷。
4.反饋溝通: 表達(dá)清晰客觀,能夠準(zhǔn)確描述評測中遇到的標(biāo)準(zhǔn)爭議,并及反饋,確保信息傳遞無誤。
5.工作態(tài)度: 細(xì)心穩(wěn)重,能夠接受重復(fù)性的評測工作,并能在穩(wěn)定的節(jié)奏下保持專注與高效。
6.加分項(xiàng)(滿足基礎(chǔ)條件前提下):
a.領(lǐng)域背景: 具備代碼、醫(yī)療、金融、命理星象中任一專業(yè)知識背景者優(yōu)先;
b.大模型經(jīng)驗(yàn): 有過大模型(LLM)或圖生文(VLM)相關(guān)標(biāo)注經(jīng)歷。
c.多模態(tài)經(jīng)驗(yàn): 具有文生圖(Text-to-Image)或文生視頻(Text-to-Video)相關(guān)評測/打分經(jīng)驗(yàn)者優(yōu)先
崗位職責(zé):
1.模型輸出打分: 負(fù)責(zé)VLM(視覺語言模型)圖生文結(jié)果的質(zhì)量評估,針對邏輯準(zhǔn)確性、事實(shí)一致性、是否存在幻覺等維度進(jìn)行精準(zhǔn)打分判定。
2.評測集構(gòu)造: 協(xié)助業(yè)務(wù)方構(gòu)建多模態(tài)評測題目,包括搜集/篩選特定場景圖片,并根據(jù)業(yè)務(wù)需求編寫高質(zhì)量、有區(qū)分度的Prompt(提示詞)。
3.邏輯與理解把關(guān): 在評測過程中,能夠準(zhǔn)確識別模型在邏輯推理與內(nèi)容理解方面的表現(xiàn),捕捉回復(fù)中細(xì)微的邏輯漏洞或語義偏差。
4.主觀體驗(yàn)把關(guān): 站在用戶視角,對模型回復(fù)的整體質(zhì)量進(jìn)行“主觀好壞”評判。包括回復(fù)是否自然、是否契合語境、以及表達(dá)是否符合人類的使用習(xí)慣與審美。
5.問題匯總與反饋: 收集并整理評測過程中出現(xiàn)的典型錯(cuò)誤案例(Badcase),清晰記錄并向內(nèi)部負(fù)責(zé)人反饋,協(xié)助業(yè)務(wù)側(cè)匯總優(yōu)化策略(無需對接研發(fā)人員)。
6.標(biāo)準(zhǔn)執(zhí)行與對齊: 快速學(xué)習(xí)并嚴(yán)格執(zhí)行評測標(biāo)準(zhǔn)(SOP),確保在持續(xù)的任務(wù)產(chǎn)出中保持評分的一致性與嚴(yán)謹(jǐn)性。