高级SRE工程师
1.5-1.8万元/月
更新 2025-12-14 14:32:40
浏览 879
职位详情
运维开发工程师
5-10年
Elasticsearch · 运维开发经验 · Python/Shell · Kubernetes
岗位职责
*主导构建kuaiziSaas平台的SLI/SLO/SLA标准体系,精准衡量链路延迟、调用成功率、可用性指标及基础设施健康状态等关键性能参数
*识别系统服务短板,优化服务稳定性表现,合理管控底层资源成本,规划并落地服务降级与容灾策略
*搭建覆盖全链路的业务级压测机制,提前识别系统性能瓶颈,有效管理稳定性潜在风险
*基于OpenTelemetry打造统一可观测性平台,集成Prometheus/Elasticsearch/Grafana实现毫秒级异常感知能力
*设计并实施自动化故障响应流程,确保重大故障平均恢复时间(MTTR)控制在5分钟以内
*推进多云环境下的成本精细化运营,具备腾讯云、火山引擎等平台成本优化实践经验者优先考虑
*牵头组织重大故障复盘工作,输出具备量化分析的Postmortem报告,确保同类问题重复发生率低于5%
*构建变更防护机制,通过自动化测试卡点拦截80%以上的高风险发布操作
*具备快速应急响应能力,能高效定位并处理平台运维异常,及时遏制问题扩散
任职要求
*拥有5年以上SRE或DevOps相关工作经验,具备Saas类平台运维背景者优先
*深入掌握Kubernetes平台治理能力,具备千级节点规模集群的运维与性能调优实战经验
*熟练使用Python/Go/React等语言开发运维工具链,参与过开源项目核心模块贡献者优先
*主导构建kuaiziSaas平台的SLI/SLO/SLA标准体系,精准衡量链路延迟、调用成功率、可用性指标及基础设施健康状态等关键性能参数
*识别系统服务短板,优化服务稳定性表现,合理管控底层资源成本,规划并落地服务降级与容灾策略
*搭建覆盖全链路的业务级压测机制,提前识别系统性能瓶颈,有效管理稳定性潜在风险
*基于OpenTelemetry打造统一可观测性平台,集成Prometheus/Elasticsearch/Grafana实现毫秒级异常感知能力
*设计并实施自动化故障响应流程,确保重大故障平均恢复时间(MTTR)控制在5分钟以内
*推进多云环境下的成本精细化运营,具备腾讯云、火山引擎等平台成本优化实践经验者优先考虑
*牵头组织重大故障复盘工作,输出具备量化分析的Postmortem报告,确保同类问题重复发生率低于5%
*构建变更防护机制,通过自动化测试卡点拦截80%以上的高风险发布操作
*具备快速应急响应能力,能高效定位并处理平台运维异常,及时遏制问题扩散
任职要求
*拥有5年以上SRE或DevOps相关工作经验,具备Saas类平台运维背景者优先
*深入掌握Kubernetes平台治理能力,具备千级节点规模集群的运维与性能调优实战经验
*熟练使用Python/Go/React等语言开发运维工具链,参与过开源项目核心模块贡献者优先
相似职位
很抱歉,暂无相似职位!