崗位職責(zé):
1. 設(shè)計并開發(fā)離線數(shù)據(jù)處理流程,包括數(shù)據(jù)采集、清洗、轉(zhuǎn)換與加載(ETL),保障數(shù)據(jù)的準(zhǔn)確性與時效性;
2. 使用Python及相關(guān)生態(tài)工具(如Pandas、NumPy、Dask等)進行大規(guī)模數(shù)據(jù)預(yù)處理與跨系統(tǒng)數(shù)據(jù)同步;
3. 與算法和業(yè)務(wù)團隊協(xié)作,為大小模型訓(xùn)練任務(wù)提供數(shù)據(jù)支持;
任職要求:
1. 計算機、數(shù)學(xué)、統(tǒng)計學(xué)或相關(guān)專業(yè)本科及以上學(xué)歷,3年以上數(shù)據(jù)開發(fā)任務(wù)經(jīng)驗;
2. 熟練掌握Python編程,深入理解Pandas、NumPy、scikit-learn等數(shù)據(jù)科學(xué)庫的使用 ;
3. 熟悉離線數(shù)據(jù)處理架構(gòu),了解Sqoop、DataX等數(shù)據(jù)同步工具的典型應(yīng)用場景 ;
4. 掌握常見的機器學(xué)習(xí)算法(如分類、聚類、推薦系統(tǒng))及其數(shù)據(jù)準(zhǔn)備流程 ;
5. 具備較強SQL開發(fā)能力,能高效編寫復(fù)雜查詢,并對數(shù)據(jù)質(zhì)量與一致性有高度敏感;
6. 了解阿里云或其他云平臺數(shù)據(jù)開發(fā)者優(yōu)先,有Dataworks、Maxcompute、PAI使用經(jīng)驗者更佳 ;
7. 具備良好的工程習(xí)慣、文檔能力和團隊協(xié)作意識,能獨立推進數(shù)據(jù)項目落地。