崗位職責(zé)
1.參與企業(yè)級監(jiān)控平臺的研發(fā),統(tǒng)一收集和分析系統(tǒng)指標(biāo)、日志與調(diào)用鏈路數(shù)據(jù);
2.開發(fā)高性能的數(shù)據(jù)采集、傳輸、存儲與查詢模塊,支撐大規(guī)模服務(wù)的實時可觀測性;
3.實現(xiàn)智能告警、故障定位輔助、容量預(yù)測等能力,幫助團隊快速發(fā)現(xiàn)和解決問題;
4.推動全公司系統(tǒng)接入統(tǒng)一監(jiān)控標(biāo)準(zhǔn),減少重復(fù)建設(shè);
5.優(yōu)化平臺資源消耗與查詢效率,在成本與體驗之間取得平衡。
能力要求
1.學(xué)歷:本科及以上,計算機科學(xué)與技術(shù)、軟件工程、信息工程等計算機科學(xué)與技術(shù)、軟件工程、信息工程等計算機相關(guān)專業(yè)優(yōu)先;
2.工作年限:3年以上監(jiān)控研發(fā)相關(guān)工作經(jīng)驗,1年以上可觀測性工具開發(fā)經(jīng)驗;
3.技術(shù)要求:熟悉 Java 或 Go 編程語言,有 Prometheus、Grafana、ELK、Loki、SkyWalking 等系統(tǒng)開發(fā)或深度定制經(jīng)驗;熟悉時序數(shù)據(jù)庫(Prometheus TSDB、InfluxDB、ClickHouse)或日志存儲(Elasticsearch)的原理與調(diào)優(yōu);能設(shè)計高吞吐、低延遲的數(shù)據(jù)管道(采集、傳輸、存儲、查詢),處理百萬級指標(biāo)或 TB 級日志;理解分布式系統(tǒng)常見故障模式,能將運維痛點轉(zhuǎn)化為有效監(jiān)控能力;熟悉 OpenTelemetry 標(biāo)準(zhǔn),具備埋點規(guī)范設(shè)計與落地能力;掌握監(jiān)控告警策略設(shè)計、降噪算法與根因分析輔助技術(shù)。
4.具備良好的團隊協(xié)作能力、溝通能力與問題解決能力,認(rèn)同公司技術(shù)理念與發(fā)展方向。
薪資可面議