深度学习训练系统研发专家-北京，杭州招聘_阿里云计算有限公司-南沙人才网

深度学习训练系统研发专家-北京，杭州

5-7万元/月

杭州西湖区阿里巴巴云谷园区阿里云-云谷园区

更新 2025-12-21 14:34:09 浏览 962

职位详情

高性能计算工程师 3-5年大模型算法 · 模型加速/性能优化 · C/C++ · Python · 算法工程化经验

岗位职责：
●承担PAI平台深度学习框架的技术研发工作，涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向，支撑通义实验室及阿里集团内多业务场景的技术需求；参与基模型Pretrain、SFT等关键阶段的训练效能提升与系统优化；

●专注于提高各阶段模型训练任务的峰值吞吐能力，能够系统性地分析不同模型负载在训练过程中的性能瓶颈，并提出针对性改进方案，包括但不限于算子层面优化、通信机制调优、分布式策略设计等技术手段；

●主导超大规模训练系统的稳定性建设，通过多种技术路径提升训练任务的实际产出效率，打造高效的故障识别机制与自动化恢复能力，保障大规模训练过程的平稳与顺畅；

●参与训练框架对多元硬件平台的适配与性能增强工作。

任职要求：
●具备扎实的工程实现能力，良好的代码规范，熟练掌握Python/C++编程语言及常见设计模式，拥有复杂软件系统的架构设计、开发与调试经验；

●理解深度学习基本理论，熟悉Transformer结构原理，了解主流大语言模型与多模态模型的技术特性；

●精通PyTorch等常用深度学习框架，深入理解Megatron、DeepSpeed、JAX等训练框架的设计差异与底层细节；

●具备良好的沟通协作能力和团队合作精神，善于知识共享与协同推进；具备快速学习新技术的能力和持续探究技术难题的韧性；

●掌握计算机体系结构相关基础知识，在异构计算优化（GPGPU/x86/ARM等）、高性能网络通信调优、分布式训练策略优化等方面有实际项目经验；

公司信息

阿里云计算有限公司

浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室

南沙人才网温馨提示

求职过程请勿缴纳费用，谨防诈骗！若信息不实请举报。

相似职位

很抱歉,暂无相似职位！