崗位職責(zé)
1.構(gòu)建統(tǒng)一的可觀測性平臺(tái),整合指標(biāo)(Metrics)、日志(Logs)、鏈路追蹤(Traces)三大核心數(shù)據(jù);
2.設(shè)計(jì)高可用、高性能的采集、存儲(chǔ)與查詢架構(gòu);
3.建立精準(zhǔn)告警機(jī)制,減少噪音,提升故障發(fā)現(xiàn)與定位效率;
4.推動(dòng) OpenTelemetry 等標(biāo)準(zhǔn)埋點(diǎn)規(guī)范落地,確保全棧(前端、后端、中間件)可觀測覆蓋;
5.提供面向開發(fā)、運(yùn)維、業(yè)務(wù)的可視化看板與自助分析能力,驅(qū)動(dòng)系統(tǒng)優(yōu)化與容量規(guī)劃。
能力要求
1.學(xué)歷:本科及以上,計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息工程等計(jì)算機(jī)科學(xué)與技術(shù)、軟件工程、信息工程等計(jì)算機(jī)相關(guān)專業(yè)優(yōu)先;
2.工作年限:5年以上監(jiān)控相關(guān)工作經(jīng)驗(yàn),3年以上可觀測性平臺(tái)建設(shè)經(jīng)驗(yàn);
3.技術(shù)要求:深入掌握 Prometheus + Grafana、ELK(Elasticsearch、Logstash、Kibana)、Loki + Tempo、SkyWalking 等主流可觀測性技術(shù)棧;有大規(guī)模時(shí)序數(shù)據(jù)(Prometheus TSDB、InfluxDB)或日志存儲(chǔ)(Elasticsearch、MinIO)處理經(jīng)驗(yàn),熟悉存儲(chǔ)優(yōu)化、采樣策略與成本控制;理解分布式系統(tǒng)故障模式,能設(shè)計(jì)有效的根因分析(RCA)輔助機(jī)制;精通 OpenTelemetry 標(biāo)準(zhǔn),能推動(dòng)全棧埋點(diǎn)規(guī)范落地;具備平臺(tái)產(chǎn)品思維,能平衡靈活性、性能與易用性,設(shè)計(jì)用戶友好的可視化看板與分析工具。
4.具備良好的團(tuán)隊(duì)協(xié)作能力、溝通能力與問題解決能力,認(rèn)同公司技術(shù)理念與發(fā)展方向。
薪資可面議