高级SRE运维工程师
1.2-1.7万元/月
更新 2026-01-11 14:18:24
浏览 469
职位详情
运维工程师
5-10年
Docker · 运维开发/DevOps · Kubernetes
工作范围:
架构设计:根据业务需求,结合阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控完整性与自动化响应机制,达成稳定与效率的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理及故障应急处理方法,主导全链路容灾、灰度发布、资金安全保障等关键专项,推进红蓝对抗演练、突发事件应对、风险巡检等能力的实际落地。通过自动化平台建设,实现变更受控、故障可防、服务可恢复的稳定性工程闭环。
故障管理:负责突发事件的快速响应,组织跨团队协同处置,开展根因分析,保障业务迅速恢复,并通过事后复盘推动系统性优化升级。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
工作经历:
•具备5年以上在金融、互联网或云服务商的工作经验,拥有可观测性系统或中间件相关产品实践背景,具备公共云环境实践经验者优先。
•精通架构设计、性能调优与系统稳定性保障核心技术,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术架构与适用场景,具备大规模落地实施经验。
•在识别业务潜在风险时,能综合技术可行性、运营成本、投入产出比等因素,推动切实可行的改进方案落地。
•具备系统的安全生产培训经历,具有较强的数据安全意识,对生产与非生产环境保持高度敬畏。
架构设计:根据业务需求,结合阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控完整性与自动化响应机制,达成稳定与效率的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理及故障应急处理方法,主导全链路容灾、灰度发布、资金安全保障等关键专项,推进红蓝对抗演练、突发事件应对、风险巡检等能力的实际落地。通过自动化平台建设,实现变更受控、故障可防、服务可恢复的稳定性工程闭环。
故障管理:负责突发事件的快速响应,组织跨团队协同处置,开展根因分析,保障业务迅速恢复,并通过事后复盘推动系统性优化升级。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
工作经历:
•具备5年以上在金融、互联网或云服务商的工作经验,拥有可观测性系统或中间件相关产品实践背景,具备公共云环境实践经验者优先。
•精通架构设计、性能调优与系统稳定性保障核心技术,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术架构与适用场景,具备大规模落地实施经验。
•在识别业务潜在风险时,能综合技术可行性、运营成本、投入产出比等因素,推动切实可行的改进方案落地。
•具备系统的安全生产培训经历,具有较强的数据安全意识,对生产与非生产环境保持高度敬畏。
相似职位
很抱歉,暂无相似职位!