返回 职位详情 登录/注册
智算中心运维专家
1.5-2.5万元/月
定位 杭州滨江区新华三集团长河路466
更新 2025-12-19 14:30:26 浏览 334
职位详情
运维工程师 5-10年 网络运维 · 通信相关专业 · 计算机相关专业 · 网络安全相关经验 · 运维经验
岗位职责
1、负责智算中心GPU服务器及集群、高性能存储、IB/RoCE等高速网络等核心基础设施的全天候稳定运行监控与维护。
2、制定并落实标准化的智算中心运维操作规范(SOP)、应急处理预案(EOP)以及灾备恢复策略,保障系统可用性达到99.99%。
3、持续跟踪集群关键性能指标(如GPU使用率、网络吞吐、存储IOPS等),识别性能瓶颈,提出并落地优化措施,提升资源整体利用效率。
4、为内部业务团队及重点客户提供高水平技术支持,协助解决复杂技术问题。
5、推进智算中心运维体系向标准化、自动化、智能化方向演进,持续完善运维服务管理流程。

任职要求
1、计算机科学、通信工程或相关专业本科及以上学历。
2、5年以上数据中心运维工作经验,其中至少2年专注于AI/HPCC(高性能计算)或智算中心领域的实际运维。
3、掌握扎实的网络知识,深入理解TCP/IP协议栈,具备InfiniBand、RoCE等高速网络的实际运维与故障定位能力。
4、精通集群运维管理,熟练掌握至少一种主流集群管理或作业调度系统,如Slurm、Kubernetes(k8s)、OpenPBS/Torque等,并了解其在AI训练与推理场景中的应用实践。
5、了解存储技术,熟悉至少一种分布式存储系统(如Ceph、Lustre、GPFS等)的架构设计与日常运维。
6、熟悉GPU相关技术,了解NVIDIAGPU架构,能够完成驱动、CUDA环境、容器化方案(如NVIDIADocker)的部署配置,并掌握DCGM、nvidia-smi等性能监控工具的使用。
7、熟练掌握至少一门脚本语言(如Shell、Python、Go),可独立开发自动化脚本和工具;具备Ansible、SaltStack、Terraform等自动化配置管理工具的使用经验。
8、获得华为HCIE-AI、RHCE/RHCA、CKA、NVIDIA等相关认证者优先考虑,有大模型训练集群或混合云智算平台运维经验者优先。
公司信息
新华三技术有限公司
明细
杭州市滨江区长河路466号
南沙人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!