崗位職責(zé):
(一)數(shù)據(jù)治理體系搭建與戰(zhàn)略規(guī)劃
1.主導(dǎo)制定事業(yè)部 AI 數(shù)據(jù)治理中長期戰(zhàn)略與技術(shù)路線,結(jié)合業(yè)務(wù)場(chǎng)景(如政府審計(jì)、企業(yè)監(jiān)管、智能決策等)明確數(shù)據(jù)治理目標(biāo)、范圍與優(yōu)先級(jí),對(duì)齊公司 AI 產(chǎn)品發(fā)展規(guī)劃。
2.建立并迭代 事業(yè)部AI 數(shù)據(jù)治理標(biāo)準(zhǔn)體系,包括數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn)、元數(shù)據(jù)管理規(guī)范、數(shù)據(jù)質(zhì)量評(píng)價(jià)體系、標(biāo)注規(guī)范(如 NLP 文本標(biāo)注、CV 圖像標(biāo)注、語音轉(zhuǎn)寫標(biāo)注)、數(shù)據(jù)安全與合規(guī)準(zhǔn)則,覆蓋結(jié)構(gòu)化、非結(jié)構(gòu)化(文本、圖像、語音)、半結(jié)構(gòu)化及 AI 生成數(shù)據(jù)。
3.設(shè)計(jì) AI 數(shù)據(jù)治理架構(gòu),參與數(shù)據(jù)治理工具鏈(如數(shù)據(jù)清洗工具、標(biāo)注工具、質(zhì)量監(jiān)測(cè)工具、數(shù)據(jù)血緣分析工具)的規(guī)劃與落地,推動(dòng)治理流程自動(dòng)化、智能化(如引入大模型輔助數(shù)據(jù)分類、清洗、標(biāo)注)。
(二)AI 全生命周期數(shù)據(jù)治理實(shí)施
1.數(shù)據(jù)采集與預(yù)處理治理:主導(dǎo) AI 訓(xùn)練 / 推理數(shù)據(jù)的采集策略設(shè)計(jì),保障數(shù)據(jù)來源的合法性、多樣性與平衡性;牽頭數(shù)據(jù)清洗、去重、去噪、格式標(biāo)準(zhǔn)化工作,解決數(shù)據(jù)缺失、冗余、沖突等問題,優(yōu)化數(shù)據(jù)可用性。
2.標(biāo)注質(zhì)量與流程治理:建立標(biāo)注質(zhì)量控制體系,制定標(biāo)注流程規(guī)范、質(zhì)量評(píng)估指標(biāo)(如準(zhǔn)確率、召回率、一致性),搭建標(biāo)注審核機(jī)制(人工審核 + 算法校驗(yàn)),確保標(biāo)注數(shù)據(jù)滿足模型訓(xùn)練要求。
3.數(shù)據(jù)版本與生命周期管理:設(shè)計(jì) AI 訓(xùn)練數(shù)據(jù)版本管理機(jī)制,記錄數(shù)據(jù)迭代歷史、版本差異及關(guān)聯(lián)模型,支持版本回溯與復(fù)用;制定數(shù)據(jù)生命周期管理規(guī)則,明確數(shù)據(jù)存儲(chǔ)、歸檔、銷毀標(biāo)準(zhǔn),優(yōu)化存儲(chǔ)資源配置。
4.數(shù)據(jù)漂移與質(zhì)量監(jiān)測(cè):建立 AI 數(shù)據(jù)質(zhì)量常態(tài)化監(jiān)測(cè)體系,設(shè)計(jì)數(shù)據(jù)質(zhì)量指標(biāo)(完整性、準(zhǔn)確性、一致性、時(shí)效性、唯一性、相關(guān)性)的監(jiān)測(cè)方案,實(shí)時(shí)捕捉數(shù)據(jù)漂移(概念漂移、特征漂移)、分布異常等問題,推動(dòng)數(shù)據(jù)質(zhì)量持續(xù)優(yōu)化。
5.數(shù)據(jù)安全治理:制定數(shù)據(jù)訪問控制策略、加密傳輸與存儲(chǔ)方案,落實(shí)數(shù)據(jù)分類分級(jí)保護(hù)要求,防范數(shù)據(jù)泄露、篡改、濫用風(fēng)險(xiǎn),保障數(shù)據(jù)全流程安全。
(三)數(shù)據(jù)資產(chǎn)化與價(jià)值挖掘
1.牽頭 AI 數(shù)據(jù)資產(chǎn)化建設(shè),搭建數(shù)據(jù)目錄、元數(shù)據(jù)管理體系,梳理數(shù)據(jù)血緣關(guān)系,建立數(shù)據(jù)資產(chǎn)標(biāo)簽體系,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)的可視化管理與高效檢索。
2.挖掘數(shù)據(jù)資產(chǎn)價(jià)值,推動(dòng)治理后的數(shù)據(jù)在 AI 模型訓(xùn)練、業(yè)務(wù)場(chǎng)景創(chuàng)新(如智能審計(jì)、智能監(jiān)管、預(yù)測(cè)分析)中的復(fù)用,提升數(shù)據(jù)使用效率,降低 AI 開發(fā)成本。
3.建立數(shù)據(jù)治理成效評(píng)估體系,量化數(shù)據(jù)治理對(duì)模型性能(如準(zhǔn)確率、召回率提升)、業(yè)務(wù)效率(如模型迭代周期縮短)、合規(guī)風(fēng)險(xiǎn)降低的貢獻(xiàn)度。
(四)團(tuán)隊(duì)協(xié)作與技術(shù)賦能
1.對(duì)接算法團(tuán)隊(duì)、產(chǎn)品團(tuán)隊(duì),明確 AI 數(shù)據(jù)需求(如訓(xùn)練數(shù)據(jù)量、場(chǎng)景適配性、數(shù)據(jù)格式),推動(dòng)數(shù)據(jù)治理成果落地應(yīng)用。
2.開展 AI 數(shù)據(jù)治理知識(shí)賦能,制定培訓(xùn)體系,向內(nèi)部團(tuán)隊(duì)(算法、產(chǎn)品、運(yùn)營)及合作伙伴傳遞數(shù)據(jù)治理標(biāo)準(zhǔn)、工具使用方法、合規(guī)要求,提升全員數(shù)據(jù)治理意識(shí)。
3.跟蹤 AI 數(shù)據(jù)治理領(lǐng)域前沿技術(shù)趨勢(shì)(如大模型輔助數(shù)據(jù)治理、自動(dòng)化數(shù)據(jù)標(biāo)注、智能數(shù)據(jù)質(zhì)量診斷),引入創(chuàng)新技術(shù)與工具,優(yōu)化治理流程與效率。
4.指導(dǎo)數(shù)據(jù)治理團(tuán)隊(duì)(如數(shù)據(jù)治理工程師、標(biāo)注管理專員)開展工作,制定工作目標(biāo)與考核標(biāo)準(zhǔn),提升團(tuán)隊(duì)專業(yè)能力;參與核心技術(shù)方案評(píng)審,解決數(shù)據(jù)治理復(fù)雜技術(shù)難題。
任職要求:
(一)專業(yè)知識(shí)
1.數(shù)據(jù)治理核心知識(shí):精通數(shù)據(jù)治理全流程框架,包括數(shù)據(jù)分類分級(jí)、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量體系(完整性、準(zhǔn)確性、一致性等指標(biāo))、數(shù)據(jù)生命周期管理、數(shù)據(jù)血緣分析等;掌握結(jié)構(gòu)化、非結(jié)構(gòu)化(文本、圖像、語音)、半結(jié)構(gòu)化及 AI 生成數(shù)據(jù)的治理特性與方法。
2.AI 領(lǐng)域?qū)I(yè)知識(shí):熟悉 AI 全生命周期(數(shù)據(jù)采集、標(biāo)注、訓(xùn)練、推理、退役)的數(shù)據(jù)流與治理需求;掌握機(jī)器學(xué)習(xí) / 深度學(xué)習(xí)模型對(duì)訓(xùn)練數(shù)據(jù)的要求(如數(shù)據(jù)多樣性、平衡性、標(biāo)注精度);了解數(shù)據(jù)漂移(概念漂移、特征漂移)的檢測(cè)與應(yīng)對(duì)方法;精通 NLP、CV、語音等領(lǐng)域的標(biāo)注規(guī)范與質(zhì)量評(píng)估標(biāo)準(zhǔn)。
3.合規(guī)與安全知識(shí):了解《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》《生成式人工智能服務(wù)管理暫行辦法》、GDPR 等國內(nèi)外數(shù)據(jù)相關(guān)法律法規(guī)及行業(yè)規(guī)范;了解數(shù)據(jù)合規(guī)評(píng)估方法(如隱私保護(hù)影響評(píng)估 PIA)、數(shù)據(jù)脫敏(匿名化、去標(biāo)識(shí)化)、差分隱私、聯(lián)邦學(xué)習(xí)等合規(guī)技術(shù);了解數(shù)據(jù)分類分級(jí)保護(hù)、訪問控制、加密傳輸與存儲(chǔ)等安全治理方案。
4.技術(shù)工具知識(shí):熟悉主流數(shù)據(jù)治理工具鏈,包括數(shù)據(jù)清洗工具(如 DataWrangler、Trifacta)、標(biāo)注平臺(tái)(如 LabelStudio、百度飛槳標(biāo)注工具)、數(shù)據(jù)質(zhì)量監(jiān)測(cè)系統(tǒng)(如 Great Expectations)、元數(shù)據(jù)管理工具(如 Apache Atlas)、數(shù)據(jù)血緣分析工具;了解大數(shù)據(jù)處理技術(shù)(Hadoop、Spark)、數(shù)據(jù)庫技術(shù)(關(guān)系型、非關(guān)系型數(shù)據(jù)庫);具備大模型輔助數(shù)據(jù)治理(如自動(dòng)分類、智能清洗、標(biāo)注審核)的相關(guān)知識(shí)者優(yōu)先。
(二)業(yè)務(wù)技能
1.體系搭建能力:了解國家最新數(shù)據(jù)宏觀政策,能夠獨(dú)立設(shè)計(jì) AI 數(shù)據(jù)治理戰(zhàn)略規(guī)劃、標(biāo)準(zhǔn)體系(含數(shù)據(jù)分類分級(jí)、質(zhì)量、標(biāo)注、合規(guī)等規(guī)范)及技術(shù)架構(gòu),具備從 0 到 1 搭建數(shù)據(jù)治理體系的實(shí)操能力。
2.全流程治理執(zhí)行能力:熟練開展 AI 數(shù)據(jù)采集策略設(shè)計(jì)、數(shù)據(jù)清洗與預(yù)處理、標(biāo)注質(zhì)量管控、數(shù)據(jù)版本管理、數(shù)據(jù)漂移監(jiān)測(cè)等全生命周期治理工作;能夠針對(duì)不同 AI 場(chǎng)景(如智能審計(jì)、智能監(jiān)管、生成式 AI 產(chǎn)品)制定個(gè)性化數(shù)據(jù)治理方案。
3.工具選型與落地能力:具備數(shù)據(jù)治理工具鏈的選型、部署與優(yōu)化能力,能夠結(jié)合業(yè)務(wù)需求與技術(shù)架構(gòu),推動(dòng)治理工具的集成與自動(dòng)化落地;可主導(dǎo)或參與數(shù)據(jù)治理相關(guān)系統(tǒng)(如質(zhì)量監(jiān)測(cè)平臺(tái)、標(biāo)注管理系統(tǒng))的需求設(shè)計(jì)與迭代優(yōu)化。
4.數(shù)據(jù)分析與問題解決能力:能夠設(shè)計(jì)數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)體系,通過數(shù)據(jù)分析定位數(shù)據(jù)治理痛點(diǎn)(如數(shù)據(jù)缺失、標(biāo)注不一致、數(shù)據(jù)漂移),并提出可落地的優(yōu)化方案;具備復(fù)雜數(shù)據(jù)治理問題(如多源數(shù)據(jù)沖突、高維數(shù)據(jù)質(zhì)量診斷)
的攻堅(jiān)能力。
(三)工作經(jīng)驗(yàn)
1.總體經(jīng)驗(yàn):5 年以上數(shù)據(jù)治理相關(guān)工作經(jīng)驗(yàn),其中至少 3 年 AI 領(lǐng)域(如機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、生成式 AI)數(shù)據(jù)治理專項(xiàng)經(jīng)驗(yàn);具備政務(wù)數(shù)據(jù)、企業(yè)監(jiān)管數(shù)據(jù)、金融數(shù)據(jù)等敏感數(shù)據(jù)治理經(jīng)驗(yàn)者優(yōu)先。
2.核心業(yè)務(wù)經(jīng)驗(yàn):具備 AI 數(shù)據(jù)治理體系搭建經(jīng)驗(yàn),主導(dǎo)過數(shù)據(jù)治理標(biāo)準(zhǔn)制定、流程優(yōu)化或工具鏈落地項(xiàng)目。熟練掌握 AI 全生命周期數(shù)據(jù)治理流程,有大規(guī)模 AI 訓(xùn)練數(shù)據(jù)(千萬級(jí)及以上)治理實(shí)操經(jīng)驗(yàn),能夠獨(dú)立解決數(shù)據(jù)質(zhì)量、標(biāo)注精度、數(shù)據(jù)合規(guī)等核心問題。
4.團(tuán)隊(duì)與管理經(jīng)驗(yàn):具備數(shù)據(jù)治理團(tuán)隊(duì)(如數(shù)據(jù)治理工程師、標(biāo)注管理專員)的指導(dǎo)與管理經(jīng)驗(yàn),能夠制定團(tuán)隊(duì)工作目標(biāo)、考核標(biāo)準(zhǔn),提升團(tuán)隊(duì)專業(yè)能力;具備跨部門項(xiàng)目協(xié)同推動(dòng)經(jīng)驗(yàn),能夠協(xié)調(diào)資源解決項(xiàng)目推進(jìn)中的關(guān)鍵瓶頸。
(四)項(xiàng)目經(jīng)驗(yàn)
1.至少主導(dǎo) 1 個(gè)以上大型 AI 產(chǎn)品(如智能知識(shí)問答、智能數(shù)據(jù)分析平臺(tái)、生成式 AI 服務(wù))的數(shù)據(jù)治理全流程項(xiàng)目,負(fù)責(zé)治理體系搭建、標(biāo)準(zhǔn)制定、工具落地及質(zhì)量管控。
2.主導(dǎo)或核心參與過 AI 數(shù)據(jù)治理體系搭建項(xiàng)目,成功制定數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量評(píng)價(jià)體系、標(biāo)注規(guī)范等核心文件,并推廣落地,覆蓋至少 2 個(gè)以上 AI 業(yè)務(wù)場(chǎng)景。
3.具備數(shù)據(jù)合規(guī)治理相關(guān)項(xiàng)目經(jīng)驗(yàn),參與過隱私保護(hù)影響評(píng)估(PIA)、數(shù)據(jù)脫敏改造、數(shù)據(jù)跨境傳輸合規(guī)等項(xiàng)目,確保項(xiàng)目通過相關(guān)合規(guī)審查,無重大合規(guī)風(fēng)險(xiǎn)事件。
4.主導(dǎo)或參與過數(shù)據(jù)治理工具鏈選型與落地項(xiàng)目,成功部署并優(yōu)化數(shù)據(jù)清洗、標(biāo)注管理、質(zhì)量監(jiān)測(cè)等工具,實(shí)現(xiàn)治理流程自動(dòng)化或智能化。
5.具備政務(wù)數(shù)據(jù)、企業(yè)監(jiān)管數(shù)據(jù)相關(guān) AI 項(xiàng)目的數(shù)據(jù)治理經(jīng)驗(yàn)者(如參與過省級(jí)及以上審計(jì)數(shù)字化平臺(tái)、企業(yè)監(jiān)管 AI 系統(tǒng)的數(shù)據(jù)治理工作),優(yōu)先考慮。