人工智能算力运维专家
2.5-3万元/月
更新 2025-12-16 20:11:18
浏览 917
职位详情
数据/策略运营
3-5年
岗位职责
1、负责AI算力资源的日常运营与维护,保障资源高效运转,搭建高性能算力集群,对接并整合调度平台实现算力统一管理;
2、统筹AI算力资源全周期运作,通过优化调度策略、控制使用成本、提升运行效率,满足模型训练与推理的算力需求;
3、制定GPU/TPU集群的调度方案,提升资源分配效率,推动算力利用最大化;
4、识别算力使用过程中的性能瓶颈,构建弹性扩缩容机制,定期输出效能评估报告,为资源规划提供数据支持;
5、分析训练任务日志信息,定位低效执行环节,推进混合精度训练等能效优化技术实施;
6、协同算法团队开展算力需求预测与资源预估工作;
7、建立算力运营关键指标体系,指导资源使用效率与性能管理,制定资源使用规范及计费依据。
任职要求
1、计算机、电子工程等相关专业本科及以上学历;
2、具备3年以上云计算或AI基础设施运维相关工作经验;
3、掌握Kubernetes、Docker等容器化部署技术;
4、熟悉NVIDIACUDA生态及主流AI框架的技术特性;
5、深入理解算力资源与模型结构之间的适配关系;
6、具有量化分析能力,能够进行投入产出比等指标测算;
7、能够在技术实现与业务节奏之间做出合理权衡。
1、负责AI算力资源的日常运营与维护,保障资源高效运转,搭建高性能算力集群,对接并整合调度平台实现算力统一管理;
2、统筹AI算力资源全周期运作,通过优化调度策略、控制使用成本、提升运行效率,满足模型训练与推理的算力需求;
3、制定GPU/TPU集群的调度方案,提升资源分配效率,推动算力利用最大化;
4、识别算力使用过程中的性能瓶颈,构建弹性扩缩容机制,定期输出效能评估报告,为资源规划提供数据支持;
5、分析训练任务日志信息,定位低效执行环节,推进混合精度训练等能效优化技术实施;
6、协同算法团队开展算力需求预测与资源预估工作;
7、建立算力运营关键指标体系,指导资源使用效率与性能管理,制定资源使用规范及计费依据。
任职要求
1、计算机、电子工程等相关专业本科及以上学历;
2、具备3年以上云计算或AI基础设施运维相关工作经验;
3、掌握Kubernetes、Docker等容器化部署技术;
4、熟悉NVIDIACUDA生态及主流AI框架的技术特性;
5、深入理解算力资源与模型结构之间的适配关系;
6、具有量化分析能力,能够进行投入产出比等指标测算;
7、能够在技术实现与业务节奏之间做出合理权衡。
相似职位
很抱歉,暂无相似职位!