主要職責:
1、設計與開發(fā): 設計、構建和維護大規(guī)模、高可用、高性能的數(shù)據(jù)處理平臺、數(shù)據(jù)倉庫(Data Warehouse)和數(shù)據(jù)湖(Data Lake)架構。
2、數(shù)據(jù)管道構建: 開發(fā)和維護ETL/ELT數(shù)據(jù)流水線,實現(xiàn)從多種數(shù)據(jù)源(如數(shù)據(jù)庫、日志、API、IoT設備等)到數(shù)據(jù)存儲(如HDFS, S3, Hive, HBase, Kafka等)的自動化、高效、可靠的數(shù)據(jù)采集、清洗、轉換和加載。
3、數(shù)據(jù)處理與分析: 使用大數(shù)據(jù)處理框架(如Spark, Flink, Hive, Presto等)進行海量數(shù)據(jù)的批處理、流處理和實時分析任務開發(fā)。
4、數(shù)據(jù)建模: 設計和實現(xiàn)數(shù)據(jù)倉庫的維度模型(如星型模型、雪花模型)或數(shù)據(jù)湖的分層架構(如ODS, DWD, DWS, ADS),確保數(shù)據(jù)的準確性、一致性和可訪問性。
5、性能優(yōu)化: 持續(xù)監(jiān)控和優(yōu)化數(shù)據(jù)處理任務的性能,包括SQL查詢優(yōu)化、Spark/Flink作業(yè)調優(yōu)、資源管理等,提升數(shù)據(jù)處理效率和系統(tǒng)穩(wěn)定性。
6、數(shù)據(jù)質量與治理: 建立和實施數(shù)據(jù)質量監(jiān)控、數(shù)據(jù)血緣追蹤、元數(shù)據(jù)管理機制,確保數(shù)據(jù)的可靠性和可追溯性。
7、平臺維護與監(jiān)控: 參與大數(shù)據(jù)平臺(如Hadoop, Spark, Kafka, Flink等)的部署、配置、監(jiān)控、故障排查和日常維護。
8、技術創(chuàng)新: 關注大數(shù)據(jù)領域的新技術、新工具和最佳實踐,并評估其在公司業(yè)務場景中的應用價值。
9、文檔與協(xié)作: 編寫清晰的技術文檔,與團隊成員有效溝通,分享知識和經(jīng)驗。
任職要求: 
1、教育背景: 計算機科學、軟件工程、信息技術或相關專業(yè)本科及以上學歷。 
2、工作經(jīng)驗: 通常要求3年以上大數(shù)據(jù)開發(fā)相關工作經(jīng)驗。
核心技能: 
1、精通至少一種編程語言:Java 或 Scala (強烈推薦),熟悉 Python。 
2、熟練掌握 SQL,具備復雜SQL編寫和優(yōu)化能力。 
3、深入理解大數(shù)據(jù)生態(tài)系統(tǒng)核心組件:Hadoop (HDFS, YARN), Spark (Core, SQL, Streaming), Kafka。 
4、熟悉至少一種數(shù)據(jù)倉庫/數(shù)據(jù)湖技術:Hive, HBase, Presto/Trino, Impala, Delta Lake, Iceberg, Hudi。 
5、熟悉至少一種流處理框架:Flink, Spark Streaming, Kafka Streams。 
6、熟悉關系型數(shù)據(jù)庫(如MySQL, PostgreSQL)和NoSQL數(shù)據(jù)庫(如Redis, MongoDB)的基本原理和使用。 
7、熟悉Linux操作系統(tǒng)和常用命令。 
8、熟悉Shell腳本編寫。 
9、了解分布式系統(tǒng)基本原理(如CAP理論、一致性、容錯)。 
加分項: 
有云平臺(如AWS, Azure, GCP, 阿里云)大數(shù)據(jù)服務(如EMR, Redshift, BigQuery, Data Lake, Databricks)使用經(jīng)驗。 
有容器化技術(Docker, Kubernetes)和CI/CD實踐經(jīng)驗。 
有數(shù)據(jù)治理、數(shù)據(jù)血緣、元數(shù)據(jù)管理工具(如Atlas, DataHub)使用經(jīng)驗。 
有實時數(shù)倉、Lambda/Kappa架構設計經(jīng)驗。 
有機器學習平臺或AI相關數(shù)據(jù)處理經(jīng)驗。 
有大型互聯(lián)網(wǎng)公司或復雜業(yè)務場景大數(shù)據(jù)平臺建設經(jīng)驗。 
具備良好的問題解決能力、溝通能力和團隊協(xié)作精神。 
對數(shù)據(jù)敏感,具備強烈的責任心和質量意識。