工作職責(zé):
1、根據(jù)運(yùn)維規(guī)劃,深入各運(yùn)維技術(shù)子方向(故障監(jiān)控/容量評(píng)估/配置和資源變更等),提供平臺(tái)化運(yùn)維解決方案并持續(xù)優(yōu)化;
2、持續(xù)跟進(jìn) K8S 平臺(tái)架構(gòu)應(yīng)用部署以及平臺(tái)組件優(yōu)化,跟進(jìn) K8S 運(yùn)維工具開發(fā);
3、負(fù)責(zé)大規(guī)模服務(wù)器配置管理、基礎(chǔ)軟件安裝以及性能調(diào)優(yōu)、應(yīng)用自動(dòng)化部署等工作;
4、參與平臺(tái)SRE輪值 OnCall,完成運(yùn)維開發(fā)相關(guān)工作文檔編寫。
任職資格:
1、計(jì)算機(jī)統(tǒng)招本科以上相關(guān)專業(yè),3年以上運(yùn)維/開發(fā)經(jīng)驗(yàn),熟悉軟件開發(fā)和系統(tǒng)架構(gòu),有自動(dòng)化運(yùn)維的經(jīng)驗(yàn),精通Linux操作系統(tǒng);
2、熟悉 K8S多集群生命周期管理;熟練 Golang/Python 開發(fā);
3、熟悉基本的數(shù)據(jù)結(jié)構(gòu),熟悉基本的網(wǎng)絡(luò)知識(shí),熟悉項(xiàng)目中 Postgresql/Mysql 等數(shù)據(jù)庫(kù)使用;
4、熟悉計(jì)算機(jī)網(wǎng)絡(luò),熟悉 DHCP、DNS 等常見協(xié)議,擅長(zhǎng)基于 Tcpdump/Wireshark 分析網(wǎng)絡(luò)問題;
5、掌握 Prometheus/Alertmanager 監(jiān)控告警平臺(tái),并基于 API 和 Webhook 實(shí)現(xiàn)自定義告警通知;
6、基于 Ubuntu、Centos 做系統(tǒng)二次封裝,掌握基于 PXE kickstart 自動(dòng)化裝機(jī)流程;
7、熟悉 Linux 內(nèi)核網(wǎng)絡(luò)協(xié)議棧,清楚數(shù)據(jù)包在 Iptables 四表五鏈路徑,具備配置能力;
8、有以下一項(xiàng)或多項(xiàng)經(jīng)驗(yàn)者優(yōu)先:對(duì)混合云、數(shù)據(jù)中心建設(shè)有獨(dú)特理解,對(duì)常見運(yùn)維問題有豐富的經(jīng)驗(yàn)優(yōu)先;
9、了解GPU、大模型訓(xùn)推等相關(guān)知識(shí)。