人工智能算力运维专家
2.5-3万元/月
更新 2025-11-23 08:38:48
浏览 934
职位详情
数据/策略运营
3-5年
岗位职责
1、负责AI算力资源的日常运营与维护,保障资源高效运转,搭建高性能算力集群,对接并整合调度平台实现统一算力管理;
2、统筹AI算力资源全生命周期运维,通过调度策略优化、成本管控及性能调优,满足模型训练与推理业务需求;
3、制定GPU/TPU集群资源调度方案,提升资源使用效率,推动算力资源最大化利用;
4、识别算力使用过程中的性能瓶颈,构建弹性扩缩容机制,定期输出算力效能评估报告,支撑管理决策;
5、分析训练任务运行日志,定位低效执行环节,推进混合精度训练等节能降耗技术落地实施;
6、协同算法团队开展算力需求预测与规划;
7、建立算力运营关键指标体系,指导资源使用效率与系统性能管理,制定资源使用规范及计费规则。
任职要求
1、计算机、电子工程等相关专业本科及以上学历;
2、具备3年以上云计算或AI基础设施运维相关工作经验;
3、掌握Kubernetes、Docker等容器化部署技术;
4、熟悉NVIDIACUDA生态及主流AI框架的技术特性;
5、深入理解算力资源配置与模型训练之间的匹配逻辑;
6、具备数据量化分析能力,如投入产出比(ROI)测算;
7、能够在技术可行性与业务时效性之间做出合理权衡。
1、负责AI算力资源的日常运营与维护,保障资源高效运转,搭建高性能算力集群,对接并整合调度平台实现统一算力管理;
2、统筹AI算力资源全生命周期运维,通过调度策略优化、成本管控及性能调优,满足模型训练与推理业务需求;
3、制定GPU/TPU集群资源调度方案,提升资源使用效率,推动算力资源最大化利用;
4、识别算力使用过程中的性能瓶颈,构建弹性扩缩容机制,定期输出算力效能评估报告,支撑管理决策;
5、分析训练任务运行日志,定位低效执行环节,推进混合精度训练等节能降耗技术落地实施;
6、协同算法团队开展算力需求预测与规划;
7、建立算力运营关键指标体系,指导资源使用效率与系统性能管理,制定资源使用规范及计费规则。
任职要求
1、计算机、电子工程等相关专业本科及以上学历;
2、具备3年以上云计算或AI基础设施运维相关工作经验;
3、掌握Kubernetes、Docker等容器化部署技术;
4、熟悉NVIDIACUDA生态及主流AI框架的技术特性;
5、深入理解算力资源配置与模型训练之间的匹配逻辑;
6、具备数据量化分析能力,如投入产出比(ROI)测算;
7、能够在技术可行性与业务时效性之间做出合理权衡。
相似职位
很抱歉,暂无相似职位!