崗位描述:
1. 核心數(shù)據(jù)采集與供給(占比約50%)
? 需求分析與方案設計: 深度對接算法團隊,理解其對于數(shù)據(jù)規(guī)模、類型、格式和質(zhì)量的深層需求,主導設計技術可行、成本可控的數(shù)據(jù)采集整體方案。
? 多源數(shù)據(jù)采集實施:
○ 公開數(shù)據(jù)源: 熟練運用爬蟲技術(Web Crawling/Scraping)從公開網(wǎng)絡、API等渠道高效、合規(guī)地獲取數(shù)據(jù)。
○ 內(nèi)部系統(tǒng)數(shù)據(jù): 設計并實現(xiàn)從公司內(nèi)部業(yè)務系統(tǒng)、日志、傳感器等數(shù)據(jù)源的數(shù)據(jù)同步方案。
○ 定制化采集: 針對特定業(yè)務場景(如圖像、視頻、音頻等),設計并推動實施軟/硬件結合的定制化數(shù)據(jù)采集流程。
? 合規(guī)與質(zhì)量管理: 確保所有數(shù)據(jù)采集活動遵守相關法律法規(guī)(如個人信息保護法)和網(wǎng)站協(xié)議,并建立采集數(shù)據(jù)的質(zhì)量評估標準。
2. 數(shù)據(jù)流水線開發(fā)與處理
? 基于采集的原始數(shù)據(jù),構建高效、穩(wěn)定的數(shù)據(jù)清洗、標注、增強和特征工程流水線,為模型訓練準備好“即食”數(shù)據(jù)。
? 管理和優(yōu)化數(shù)據(jù)ETL/ELT過程,確保數(shù)據(jù)從采集到服務的低延遲和高可靠性。
3. 數(shù)據(jù)資產(chǎn)與外包管理
? 對采集和處理的各類數(shù)據(jù)進行資產(chǎn)化管理和歸檔,建立數(shù)據(jù)目錄和血緣,實現(xiàn)數(shù)據(jù)的全生命周期管理。
? 作為技術負責人,管理與數(shù)據(jù)標注外包團隊的合作,制定精準的標注規(guī)范,并嚴格驗收其數(shù)據(jù)產(chǎn)出質(zhì)量。
任職要求:
? 經(jīng)驗: 5年以上數(shù)據(jù)工程經(jīng)驗,其中必須有豐富的專項數(shù)據(jù)采集經(jīng)驗,有支撐機器學習/深度學習項目的完整數(shù)據(jù)采集案例者優(yōu)先。
? 核心技術能力:
○ 數(shù)據(jù)采集專家: 必須精通Python爬蟲生態(tài)(如Scrapy、Requests、Selenium等),具備處理反爬機制、大規(guī)模分布式爬取、數(shù)據(jù)解析與去重的實戰(zhàn)能力。
○ 編程與數(shù)據(jù)加工: 熟練掌握 Python(Pandas, NumPy) 和 SQL,能夠對采集到的非結構化和結構化數(shù)據(jù)進行高效處理。
○ 流水線與基礎設施: 有使用 Airflow 等工具調(diào)度和監(jiān)控數(shù)據(jù)采集任務的經(jīng)驗。熟悉 Kafka 等消息隊列,了解數(shù)據(jù)采集過程中的實時流處理。
○ 數(shù)據(jù)存儲: 熟悉不同類型數(shù)據(jù)(如文件、圖片、JSON)的存儲方案。