本崗位頂薪13500元,工作時(shí)間10-7,周末雙休,節(jié)假日休息~·~
工作內(nèi)容:
1. 負(fù)責(zé)大模型訓(xùn)練所需數(shù)據(jù)的獲取與生產(chǎn),覆蓋文本、音頻、視頻等多模態(tài)數(shù)據(jù),包含數(shù)據(jù)挖掘、批量下載、解析、清洗、去重、結(jié)構(gòu)化與版本管理;
2. 搭建并維護(hù)多模態(tài)數(shù)據(jù)處理流水線,支持大規(guī)模數(shù)據(jù)的自動(dòng)化清洗、質(zhì)量校驗(yàn)、統(tǒng)計(jì)分析與持續(xù)迭代;
3. 結(jié)合大模型能力與規(guī)則/模型手段,參與數(shù)據(jù)篩選、數(shù)據(jù)增強(qiáng)、數(shù)據(jù)挖掘及人工反饋閉環(huán),持續(xù)提升數(shù)據(jù)質(zhì)量與訓(xùn)練價(jià)值;
4. 與算法、標(biāo)注、平臺(tái)工程團(tuán)隊(duì)協(xié)作,保障大模型訓(xùn)練、評(píng)測(cè)與業(yè)務(wù)交付的數(shù)據(jù)供給穩(wěn)定高效;
5. 推進(jìn)數(shù)據(jù)生產(chǎn)鏈路的工程化建設(shè),優(yōu)化數(shù)據(jù)流轉(zhuǎn)與處理效率,構(gòu)建可復(fù)用、可擴(kuò)展的數(shù)據(jù)生產(chǎn)體系。
崗位要求:
1. 工程能力扎實(shí),能夠快速上手?jǐn)?shù)據(jù)類工作,具備良好的代碼習(xí)慣和復(fù)雜問題拆解能力;
2. 熟練使用至少一種編程語言(Python / Go / Shell 等),具備大規(guī)模數(shù)據(jù)處理與自動(dòng)化腳本經(jīng)驗(yàn);
3. 有實(shí)際的數(shù)據(jù)獲取、下載、清洗、格式轉(zhuǎn)換、質(zhì)量校驗(yàn)經(jīng)驗(yàn),能獨(dú)立完成從原始數(shù)據(jù)到可用訓(xùn)練數(shù)據(jù)的全流程;
4. 了解大模型訓(xùn)練數(shù)據(jù)形態(tài)(如預(yù)訓(xùn)練、SFT、評(píng)測(cè)數(shù)據(jù)),或有多模態(tài)數(shù)據(jù)處理經(jīng)驗(yàn)者優(yōu)先;
5. 認(rèn)可數(shù)據(jù)是大模型核心競(jìng)爭(zhēng)力,對(duì)數(shù)據(jù)質(zhì)量、規(guī)模和效率敏感,愿意長(zhǎng)期深耕數(shù)據(jù)工程方向。
加分項(xiàng)(Nice to Have)
? 有爬蟲、批量下載、內(nèi)容解析或反爬應(yīng)對(duì)經(jīng)驗(yàn);
? 有音視頻處理、文本清洗、內(nèi)容過濾、去重等經(jīng)驗(yàn);
? 熟悉 Linux 環(huán)境及多進(jìn)程 / 分布式 / 批處理任務(wù);
? 參與過大模型數(shù)據(jù)生產(chǎn)、清洗或評(píng)測(cè)體系建設(shè)。
硬性條件:
1、本科及以上學(xué)歷計(jì)算機(jī)相關(guān)專業(yè)
2、2年及以上工作經(jīng)驗(yàn)
3、語言三選一 Python / Go / Shell