AI工程架构专家(推理加速方向)
2.5-5万元/月
更新 2025-12-30 17:08:05
浏览 469
职位详情
Python
3-5年
职位描述
1.负责CV模型推理及大模型推理优化的开发与持续改进;
2.持续提升推理服务性能,优化吞吐能力,减少响应延迟,并降低整体运行成本;
3.开展机器学习系统前沿技术的研究与落地应用。
职位要求
1.熟练掌握Python,具备扎实的算法与数据结构基础,了解C/C++;
2.具备深度学习应用加速的实际经验,熟悉剪枝、量化、分布式推理等常见优化手段,能根据具体应用场景和硬件环境实施定制化优化;
3.掌握主流LLM推理引擎如TensorRT-LLM、vLLM,了解FlashAttention、PageAttention、ContinuousBatching、SpeculativeDecoding等典型推理优化方法;
4.具备良好的沟通协作能力,能够与多职能团队高效配合,推动问题解决与目标达成;
5.了解GPU架构,具备CUDA编程与调优经验,有TensorRT或Triton使用背景者优先。
1.负责CV模型推理及大模型推理优化的开发与持续改进;
2.持续提升推理服务性能,优化吞吐能力,减少响应延迟,并降低整体运行成本;
3.开展机器学习系统前沿技术的研究与落地应用。
职位要求
1.熟练掌握Python,具备扎实的算法与数据结构基础,了解C/C++;
2.具备深度学习应用加速的实际经验,熟悉剪枝、量化、分布式推理等常见优化手段,能根据具体应用场景和硬件环境实施定制化优化;
3.掌握主流LLM推理引擎如TensorRT-LLM、vLLM,了解FlashAttention、PageAttention、ContinuousBatching、SpeculativeDecoding等典型推理优化方法;
4.具备良好的沟通协作能力,能够与多职能团队高效配合,推动问题解决与目标达成;
5.了解GPU架构,具备CUDA编程与调优经验,有TensorRT或Triton使用背景者优先。
相似职位
很抱歉,暂无相似职位!