服务器自主维护与维修
8000-9000元/月
更新 2026-01-11 14:40:59
浏览 189
职位详情
运维工程师
1-3年
服务器维修
现场硬件故障处理:
及时响应并处置GPU服务器的硬件异常告警,独立完成故障诊断、问题定位及修复实施的完整流程。
熟练掌握GPU显卡(如NVIDIAA100/H100、V100、A800等)、主板、CPU、内存、存储设备(NVMe/SSD)、RAID控制器、电源单元、网络接口卡(InfiniBand/以太网)等核心组件的检测、更换与调试。
精准识别故障根源,完整记录故障表现、处理步骤及根本原因分析(RCA)报告。
预防性维护(PM):
按计划开展GPU服务器的健康状态检查、固件版本升级、驱动程序优化等预防性维护任务,降低突发故障风险。
参与数据中心例行巡检,发现潜在硬件隐患并推动前置化处理。
库存与物流管理:
负责现场备品备件库(SpareParts)的日常管理,保障关键部件库存充足,规范登记备件领用与退还信息。
配合执行故障部件的返厂维修(RMA)流程,与供应商开展技术对接与沟通。
及时响应并处置GPU服务器的硬件异常告警,独立完成故障诊断、问题定位及修复实施的完整流程。
熟练掌握GPU显卡(如NVIDIAA100/H100、V100、A800等)、主板、CPU、内存、存储设备(NVMe/SSD)、RAID控制器、电源单元、网络接口卡(InfiniBand/以太网)等核心组件的检测、更换与调试。
精准识别故障根源,完整记录故障表现、处理步骤及根本原因分析(RCA)报告。
预防性维护(PM):
按计划开展GPU服务器的健康状态检查、固件版本升级、驱动程序优化等预防性维护任务,降低突发故障风险。
参与数据中心例行巡检,发现潜在硬件隐患并推动前置化处理。
库存与物流管理:
负责现场备品备件库(SpareParts)的日常管理,保障关键部件库存充足,规范登记备件领用与退还信息。
配合执行故障部件的返厂维修(RMA)流程,与供应商开展技术对接与沟通。
相似职位
很抱歉,暂无相似职位!