智能计算运维工程师
1.2-1.3万元/月
更新 2025-12-16 11:58:07
浏览 176
职位详情
运维工程师
3-5年
网络运维 · MySQL/Oracle · Docker · 运维开发/DevOps · 运维开发经验 · Python/Shell · 计算机相关专业 · 网络安全相关经验
岗位职责
1、承担智算中心的日常运维任务,涵盖现网系统稳定运行、软件可用性维护、网络安全管理、运维流程自动化及性能监控与告警响应等工作。
2、依据现网操作规范和服务标准,快速响应并解决现网故障,同步落实预防措施与容灾机制,保障业务连续性。
3、根据智算测试方案与执行要求,确保服务器在算力表现、运行性能、网络吞吐能力、读写IO效率、模型训练速度及精度等方面达标。
4、按项目实际需求,撰写测试结果报告与性能评估分析,并提出可行的优化改进方案。
专业知识要求:
1、计算机、软件工程等相关专业背景,全日制本科二本及以上学历,熟练掌握Linux系统与Shell脚本,具备基本开发能力。
2、了解容器化技术,能熟练应用Docker及Kubernetes进行环境部署与管理。
3、熟悉算力服务器整体架构,掌握NCCL、HCCL通信机制以及高性能分布式存储相关技术。
4、有数据中心、算力平台、人工智能企业或大型大数据系统建设经验者优先考虑。
1、承担智算中心的日常运维任务,涵盖现网系统稳定运行、软件可用性维护、网络安全管理、运维流程自动化及性能监控与告警响应等工作。
2、依据现网操作规范和服务标准,快速响应并解决现网故障,同步落实预防措施与容灾机制,保障业务连续性。
3、根据智算测试方案与执行要求,确保服务器在算力表现、运行性能、网络吞吐能力、读写IO效率、模型训练速度及精度等方面达标。
4、按项目实际需求,撰写测试结果报告与性能评估分析,并提出可行的优化改进方案。
专业知识要求:
1、计算机、软件工程等相关专业背景,全日制本科二本及以上学历,熟练掌握Linux系统与Shell脚本,具备基本开发能力。
2、了解容器化技术,能熟练应用Docker及Kubernetes进行环境部署与管理。
3、熟悉算力服务器整体架构,掌握NCCL、HCCL通信机制以及高性能分布式存储相关技术。
4、有数据中心、算力平台、人工智能企业或大型大数据系统建设经验者优先考虑。
相似职位
很抱歉,暂无相似职位!