一、崗位職責(zé)
- 負(fù)責(zé)公司 AI Agent 與大模型應(yīng)用系統(tǒng)的運(yùn)維與穩(wěn)定性建設(shè),保障系統(tǒng)在生產(chǎn)環(huán)境中的高可用與高性能運(yùn)行。
- 構(gòu)建和優(yōu)化 AI系統(tǒng)監(jiān)控與可觀測(cè)體系,包括日志、指標(biāo)與鏈路追蹤,實(shí)現(xiàn)對(duì)模型調(diào)用、RAG流程及外部接口的全鏈路監(jiān)控。
- 設(shè)計(jì)并實(shí)現(xiàn) LLM調(diào)用性能優(yōu)化策略,包括緩存機(jī)制、異步隊(duì)列、負(fù)載均衡及請(qǐng)求調(diào)度等,提升系統(tǒng)響應(yīng)效率。
- 建立 Token 使用監(jiān)控與成本控制機(jī)制,通過數(shù)據(jù)分析和策略優(yōu)化降低模型調(diào)用成本。
- 構(gòu)建 AI系統(tǒng)自動(dòng)化測(cè)試與評(píng)估流程(Eval Pipeline),在版本發(fā)布前對(duì) Prompt、RAG 及模型策略進(jìn)行驗(yàn)證。
- 搭建 AI系統(tǒng) CI/CD 流水線,支持 Prompt、Agent工具和相關(guān)配置的持續(xù)集成與自動(dòng)部署。
- 參與 AI平臺(tái)的 安全與權(quán)限管理,包括密鑰管理、終端訪問控制及敏感數(shù)據(jù)處理等。
- 排查和解決 AI系統(tǒng)運(yùn)行中的性能問題與異常問題,持續(xù)提升系統(tǒng)穩(wěn)定性與可維護(hù)性。
二、任職要求
- 本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程或相關(guān)專業(yè)優(yōu)先。
- 2 年及以上 DevOps / SRE / 平臺(tái)運(yùn)維經(jīng)驗(yàn),具備高可用系統(tǒng)運(yùn)維經(jīng)驗(yàn)。
- 熟悉 云平臺(tái)環(huán)境(如 Azure、AWS 或 GCP),具備云原生系統(tǒng)運(yùn)維經(jīng)驗(yàn)。
- 熟悉 系統(tǒng)監(jiān)控與可觀測(cè)技術(shù),如 Prometheus、Grafana、ELK、OpenTelemetry 等。
- 熟練掌握 Python 或其他腳本語言,能夠開發(fā)自動(dòng)化運(yùn)維工具和數(shù)據(jù)分析腳本。
- 了解 分布式系統(tǒng)架構(gòu),熟悉 API 網(wǎng)關(guān)、負(fù)載均衡、重試機(jī)制、熔斷與降級(jí)策略等設(shè)計(jì)。
- 具備良好的問題分析能力,能夠快速定位復(fù)雜系統(tǒng)中的性能瓶頸與故障原因。
- 對(duì) **AI系統(tǒng)運(yùn)維與大模型應(yīng)用平臺(tái)(LLMOps / AIOps)**有興趣,愿意持續(xù)學(xué)習(xí)相關(guān)技術(shù)。
三、加分項(xiàng)
具備以下經(jīng)驗(yàn)之一者優(yōu)先:
- 有 LLM應(yīng)用系統(tǒng)運(yùn)維經(jīng)驗(yàn)或 AI平臺(tái)運(yùn)維經(jīng)驗(yàn)
- 熟悉 RAG系統(tǒng)、向量數(shù)據(jù)庫或 AI應(yīng)用架構(gòu)
- 有 CI/CD 自動(dòng)化流水線建設(shè)經(jīng)驗(yàn)(GitHub Actions / Azure DevOps 等)
- 有 高并發(fā) API 系統(tǒng)運(yùn)維經(jīng)驗(yàn)
- 熟悉 Infrastructure as Code(Terraform / Bicep 等)
- 有 AI模型評(píng)估或自動(dòng)化測(cè)試體系建設(shè)經(jīng)驗(yàn)
四、技術(shù)環(huán)境(參考)
- 云平臺(tái):Azure AI / Azure Monitor / Log Analytics
- 可觀測(cè)體系:Application Insights、OpenTelemetry
- 自動(dòng)化與 CI/CD:Azure DevOps、GitHub Actions
- 運(yùn)維自動(dòng)化:Python 腳本
- LLMOps 工具:Prompt Flow Evaluation、MLflow
五、崗位特點(diǎn)
- 參與構(gòu)建 企業(yè)級(jí) AI 系統(tǒng)穩(wěn)定性與運(yùn)維體系
- 深度參與 LLM 應(yīng)用平臺(tái)的工程化落地
- 在真實(shí)業(yè)務(wù)場(chǎng)景中推動(dòng) AI系統(tǒng)性能優(yōu)化與成本控制
你可以這樣理解這個(gè)崗位:
一、我們要解決的問題
AI Agent 部署完成后,真正的挑戰(zhàn)才剛剛開始。我們要把 AI 從“昂貴且難以預(yù)測(cè)”,變成:
? 成本可控(Token 每一分錢都花在刀刃上)
? 性能穩(wěn)定(拒絕 30 秒以上的加載轉(zhuǎn)圈)
? 黑盒透明(每一行 AI 推理路徑都清晰可見)
? 持續(xù)進(jìn)化(Prompt 迭代不再靠“盲猜”) 的 工業(yè)級(jí)系統(tǒng)。
如果你厭倦了傳統(tǒng)的服務(wù)器運(yùn)維,想在 AI 時(shí)代定義“可觀測(cè)性”的新標(biāo)準(zhǔn),這里有你的戰(zhàn)場(chǎng)。
二、你將面對(duì)的挑戰(zhàn)
? 模型會(huì)變慢,你要設(shè)計(jì)緩存、異步隊(duì)列和負(fù)載均衡。
? Token 會(huì)超支,你要建立精準(zhǔn)的監(jiān)控看板和預(yù)算熔斷機(jī)制。
? AI 會(huì)胡言亂語,你要構(gòu)建自動(dòng)化測(cè)評(píng)(Eval)流水線,在發(fā)布前抓住它。
? 鏈路會(huì)斷裂,你要從復(fù)雜的 RAG 和 API 調(diào)用中,秒級(jí)定位故障點(diǎn)。 這不是簡(jiǎn)單的腳本維護(hù),而是鏈路工程 (Trace Engineering)。
三、你每天會(huì)做的事
? 編排: 利用 Azure DevOps / GitHub Actions 構(gòu)建 Prompt 和工具的 CI/CD 流水線。
? 監(jiān)控: 基于 Application Insights 和 OpenTelemetry,構(gòu)建 Agent 全鏈路追蹤看板。
? 調(diào)優(yōu): 實(shí)驗(yàn)不同的檢索策略和模型分流方案,在延遲與質(zhì)量之間找到最優(yōu)平衡點(diǎn)。
? 測(cè)評(píng): 設(shè)計(jì)自動(dòng)化的評(píng)估集(Test Suite),讓 AI 的每一次改動(dòng)都有據(jù)可查。
? 安全: 管理 AI Foundry 的終結(jié)點(diǎn)安全、密鑰輪轉(zhuǎn)與敏感數(shù)據(jù)脫敏。
四、技術(shù)環(huán)境
? 全棧 Azure 監(jiān)控: Azure Monitor, Log Analytics,
Application Insights。
? LLMOps 工具: Prompt Flow Evaluation, Azure AI
Project SDK, MLflow。
? 自動(dòng)化: Infrastructure as Code (Bicep/Terraform),
Python 自動(dòng)化腳本。
五、我們希望你具備的底色
? 2 年以上 DevOps 或 SRE 經(jīng)驗(yàn),管理過高并發(fā)或高可用的云端系統(tǒng)。
? 對(duì)“監(jiān)控指標(biāo)”有強(qiáng)迫癥,能從異常波動(dòng)中嗅出系統(tǒng)風(fēng)險(xiǎn)。
? Python 高手,能信手拈來地編寫自動(dòng)化工具,處理海量日志數(shù)據(jù)。
? 分布式思維,理解 API 網(wǎng)關(guān)、重試機(jī)制、熔斷降級(jí)以及緩存一致性。
六、如果你做過這些,很可能會(huì)非常適合:
? 高并發(fā) API 運(yùn)維(處理過百萬級(jí)調(diào)用量)。
? 金融/審計(jì)類系統(tǒng)的穩(wěn)定性建設(shè)。
? 可觀測(cè)性平臺(tái)搭建(ELK, Prometheus, Grafana)。
? 自動(dòng)化測(cè)試/流水線專家。
七、你能得到什么
? 掌握 2026 年最頂尖的 AIOps 體系(成為第一批掌握 LLMOps 的運(yùn)維專家)。
? 從“救火隊(duì)員”成長(zhǎng)為“AI 系統(tǒng)架構(gòu)護(hù)航者”。
? 直接參與 AI 核心業(yè)務(wù)的發(fā)布決策,你手中的數(shù)據(jù)就是系統(tǒng)上線的準(zhǔn)繩。
? 成就感: 看到系統(tǒng)在高頻調(diào)用下依然穩(wěn)如泰山,Token 成本持續(xù)下降。
如果你只是想部署幾個(gè)模型試試,這里不適合你; 如果你想讓 AI 在真實(shí)業(yè)務(wù)中“穩(wěn)健奔跑”,歡迎你。