崗位職責(zé):
1.參與智能運(yùn)維的整體架構(gòu)設(shè)計與規(guī)劃,結(jié)合公司業(yè)務(wù)需求和技術(shù)發(fā)展趨勢,制定合理的技術(shù)方案,確保平臺具備高可用性、高性能和可擴(kuò)展性;
2. 負(fù)責(zé)智能運(yùn)維平臺的開發(fā)工作,包括數(shù)據(jù)采集模塊、數(shù)據(jù)分析模塊、告警管理模塊、自動化運(yùn)維模塊等功能的編碼實(shí)現(xiàn),使用主流的開發(fā)框架和工具,保證代碼質(zhì)量和開發(fā)效率;
3. 與運(yùn)維團(tuán)隊緊密合作,深入了解運(yùn)維業(yè)務(wù)流程,將運(yùn)維場景和需求轉(zhuǎn)化為具體的功能需求,通過開發(fā)實(shí)現(xiàn)運(yùn)維工作的自動化、智能化,提高運(yùn)維效率,降低運(yùn)維成本;
4. 負(fù)責(zé)智能運(yùn)維的數(shù)據(jù)處理和分析工作,運(yùn)用大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)算法,對運(yùn)維數(shù)據(jù)進(jìn)行挖掘和分析,建立運(yùn)維數(shù)據(jù)模型,實(shí)現(xiàn)故障預(yù)測、根因分析等智能化運(yùn)維功能;
5. 監(jiān)控智能運(yùn)維平臺的運(yùn)行狀態(tài),及時發(fā)現(xiàn)和解決平臺運(yùn)行過程中出現(xiàn)的問題,保障平臺的穩(wěn)定運(yùn)行;定期對平臺進(jìn)行性能優(yōu)化,提升平臺的響應(yīng)速度和處理能力;
6. 參與制定和完善智能運(yùn)維相關(guān)的技術(shù)規(guī)范、流程和標(biāo)準(zhǔn),推動團(tuán)隊技術(shù)水平的提升;
7. 分享技術(shù)經(jīng)驗(yàn)和最佳實(shí)踐,幫助團(tuán)隊成員共同成長。
崗位任職要求:
1、本科及以上學(xué)歷,計算機(jī)科學(xué)、軟件工程、電子信息等相關(guān)專業(yè);
2、具備AI 與機(jī)器學(xué)習(xí)技術(shù),能熟練使用 Python/R等語言,掌握機(jī)器學(xué)習(xí)經(jīng)典算法(如回歸分析、聚類、決策樹)、深度學(xué)習(xí)框架(TensorFlow/PyTorch)等知識;
運(yùn)維場景定制算法:熟悉時序預(yù)測(LSTM/Transformer 用于性能趨勢分析)、異常檢測(Isolation Forest/One-Class SVM 用于故障預(yù)警)、強(qiáng)化學(xué)習(xí)(自動參數(shù)調(diào)優(yōu))等模型,了解相關(guān)模型在不同場景下的落地;
3、具備自動化運(yùn)維能力,熟練使用 Shell/Python 編寫各類運(yùn)維自動化腳本;掌握 Docker/Kubernetes 容器化技術(shù),可熟練使用 Prometheus+Grafana、Zabbix 等工具以及ELK等,構(gòu)建日志分析和監(jiān)控體系;
4、具備良好的溝通和理解能力,理解不同運(yùn)維場景對監(jiān)控、撥測等方面的需求,能夠?qū)?yīng)用可用性需求轉(zhuǎn)化為 AIOPS設(shè)計需求。