1、負(fù)責(zé)大模型在端側(cè)的優(yōu)化與部署,包括模型量化、算子優(yōu)化及在 NPU 等異構(gòu)硬件上的高效運(yùn)行;
2、基于 Transformer 架構(gòu),對(duì)大模型進(jìn)行結(jié)構(gòu)分析與性能優(yōu)化,解決精度、性能與資源受限條件下的部署問題;
3、負(fù)責(zé)大模型端側(cè)推理性能調(diào)優(yōu),包括 FP16 / INT8 / INT4 等精度方案下的精度與性能權(quán)衡;
4、參與大模型在特定場景下的適配與優(yōu)化,必要時(shí)配合進(jìn)行模型微調(diào)或結(jié)構(gòu)調(diào)整以滿足端側(cè)部署需求;
5、與系統(tǒng)、編譯器或芯片團(tuán)隊(duì)協(xié)作,推動(dòng)大模型在 NPU 上的工程化落地。
任職要求:
1.計(jì)算機(jī)科學(xué)、人工智能、數(shù)學(xué)等相關(guān)專業(yè)本科及以上學(xué)歷,具備深厚的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)理論基礎(chǔ);學(xué)習(xí)態(tài)度、上進(jìn)心強(qiáng)的畢業(yè)生可適當(dāng)放寬。
2、熟練掌握NLP和ML基礎(chǔ)理論與算法,熟練掌握Transformer模型架構(gòu)和原理;
3、熟悉大模型推理流程,具備模型壓縮與優(yōu)化經(jīng)驗(yàn),包括但不限于 量化(PTQ / QAT)、剪枝、蒸餾等;
4、對(duì)端側(cè)部署有實(shí)踐經(jīng)驗(yàn),了解模型在 NPU / GPU / CPU 等硬件上的推理特性與性能瓶頸;
5、具備較強(qiáng)的工程能力與學(xué)習(xí)能力,能夠快速理解業(yè)務(wù)場景并推動(dòng)算法落地。