1、跟进工业界/学术界最新的推理动态;
2、模型推理算法实现和优化;
3、推理优化,包括缓存优化、(CUDA、CPU 等)算子开发、模型量化、xPU推理优化,推测解码;
4、量化工具开发。
1、熟悉NLP 和 ML 的基础理论和常见算法;
2、熟练使用python,C++;
3、有pytorch 编程经验;
4、熟悉 CUDA编程,CPU SIMD并行算法等;
5、熟悉大模型推理优化技术,包括但不限于解码技术、layer fusion、kernel fusion和量化等技术;
6、熟悉llama.cpp或vLLM等框架。
请将个人简历及附加个人成果/作品等发送邮件至recruiting@uniontech.com 邮件主题:姓名-城市-投递岗位
