1、負責大模型在端側的優(yōu)化與部署,包括模型量化、算子優(yōu)化及在 NPU 等異構硬件上的高效運行;
2、基于 Transformer 架構,對大模型進行結構分析與性能優(yōu)化,解決精度、性能與資源受限條件下的部署問題;
3、負責大模型端側推理性能調優(yōu),包括 FP16 / INT8 / INT4 等精度方案下的精度與性能權衡;
4、參與大模型在特定場景下的適配與優(yōu)化,必要時配合進行模型微調或結構調整以滿足端側部署需求;
5、與系統(tǒng)、編譯器或芯片團隊協(xié)作,推動大模型在 NPU 上的工程化落地。
任職要求:
1.計算機科學、人工智能、數學等相關專業(yè)本科及以上學歷,具備深厚的機器學習和深度學習理論基礎;學習態(tài)度、上進心強的畢業(yè)生可適當放寬。
2、熟練掌握NLP和ML基礎理論與算法,熟練掌握Transformer模型架構和原理;
3、熟悉大模型推理流程,具備模型壓縮與優(yōu)化經驗,包括但不限于 量化(PTQ / QAT)、剪枝、蒸餾等;
4、對端側部署有實踐經驗,了解模型在 NPU / GPU / CPU 等硬件上的推理特性與性能瓶頸;
5、具備較強的工程能力與學習能力,能夠快速理解業(yè)務場景并推動算法落地。