高级sre运维工程师
1.2-1.7万元/月
更新 2025-12-17 20:26:45
浏览 352
职位详情
运维工程师
5-10年
Docker · 运维开发/DevOps · Kubernetes
⼯作范围:
架构设计:结合业务需求,运用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控全链路覆盖及自动化响应机制,实现系统可靠性和敏捷交付的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理与故障应急处理方法,主导全栈容灾、灰度发布、资金安全防护等关键专项,推进红蓝对抗演练、应急处置流程、风险巡检能力的实施。通过自动化平台建设,达成变更受控、故障可防、服务可快速恢复的稳定性工程闭环。
故障管理:负责突发事件响应,组织跨团队协同处置,开展根因分析,保障业务快速恢复,并主导事后复盘,推动系统性优化措施落地。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
i.
ii.
iii.
iv.
⼯作经历:
c.
具备5年以上在金融、互联网或云服务商的工作经验,有可观测性系统或中间件产品实践经验,熟悉公共云环境者优先。
深入掌握架构设计、性能调优与系统稳定性保障核心技术,理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术原理与实际应用场景,具备大规模落地实施经验。
在识别业务潜在风险时,能综合技术可行性、运营效率、成本投入与业务收益等因素,推动切实可行的优化方案落地。
具备系统的安全生产培训背景,拥有数据安全意识,对生产与非生产环境保持高度敬畏,严格执行安全操作规范。
架构设计:结合业务需求,运用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控全链路覆盖及自动化响应机制,实现系统可靠性和敏捷交付的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理与故障应急处理方法,主导全栈容灾、灰度发布、资金安全防护等关键专项,推进红蓝对抗演练、应急处置流程、风险巡检能力的实施。通过自动化平台建设,达成变更受控、故障可防、服务可快速恢复的稳定性工程闭环。
故障管理:负责突发事件响应,组织跨团队协同处置,开展根因分析,保障业务快速恢复,并主导事后复盘,推动系统性优化措施落地。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
i.
ii.
iii.
iv.
⼯作经历:
c.
具备5年以上在金融、互联网或云服务商的工作经验,有可观测性系统或中间件产品实践经验,熟悉公共云环境者优先。
深入掌握架构设计、性能调优与系统稳定性保障核心技术,理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术原理与实际应用场景,具备大规模落地实施经验。
在识别业务潜在风险时,能综合技术可行性、运营效率、成本投入与业务收益等因素,推动切实可行的优化方案落地。
具备系统的安全生产培训背景,拥有数据安全意识,对生产与非生产环境保持高度敬畏,严格执行安全操作规范。
相似职位
很抱歉,暂无相似职位!