SRE工程师
1.4-2万元/月
更新 2026-01-11 14:19:05
浏览 978
职位详情
运维开发工程师
3-5年
Java
岗位职责
1.架构设计:结合业务需求,运用阿里云ARMS、OpenTelemetry、Grafana、Prometheus等可观测性技术,构建高可用、可量化的系统稳定性架构,覆盖监控体系、自动化响应与系统健壮性,实现稳定性与敏捷交付的协同。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理及故障应急机制,主导全链路容灾、灰度发布、资损防范等专项优化,推进红蓝对抗、应急处置、风险巡检等能力实施。通过自动化工具建设,达成变更受控、故障可防、服务可恢复的稳定性闭环管理。
2.故障管理:负责突发事件响应,组织跨团队协作,开展根因分析,快速恢复服务,并通过复盘机制推动系统性优化与流程完善。
3.开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测平台的运维效率。
任职要求:
1.具备5年以上金融、互联网或云服务商相关工作经验,有可观测性系统或中间件产品背景,熟悉公有云环境者优先。
2.精通架构设计、性能调优与系统稳定性保障,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术原理与实际应用场景,具备大规模落地实践经验。
3.具备识别业务风险的能力,能综合技术方案、运营效率、成本与收益因素,推动切实可行的改进措施落地。
4.具备扎实的安全生产意识,重视数据安全,对生产与非生产环境保持高度敬畏与规范操作习惯。
1.架构设计:结合业务需求,运用阿里云ARMS、OpenTelemetry、Grafana、Prometheus等可观测性技术,构建高可用、可量化的系统稳定性架构,覆盖监控体系、自动化响应与系统健壮性,实现稳定性与敏捷交付的协同。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理及故障应急机制,主导全链路容灾、灰度发布、资损防范等专项优化,推进红蓝对抗、应急处置、风险巡检等能力实施。通过自动化工具建设,达成变更受控、故障可防、服务可恢复的稳定性闭环管理。
2.故障管理:负责突发事件响应,组织跨团队协作,开展根因分析,快速恢复服务,并通过复盘机制推动系统性优化与流程完善。
3.开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测平台的运维效率。
任职要求:
1.具备5年以上金融、互联网或云服务商相关工作经验,有可观测性系统或中间件产品背景,熟悉公有云环境者优先。
2.精通架构设计、性能调优与系统稳定性保障,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术原理与实际应用场景,具备大规模落地实践经验。
3.具备识别业务风险的能力,能综合技术方案、运营效率、成本与收益因素,推动切实可行的改进措施落地。
4.具备扎实的安全生产意识,重视数据安全,对生产与非生产环境保持高度敬畏与规范操作习惯。
相似职位
很抱歉,暂无相似职位!