职位描述:1、深入业务场景,制定符合业务需求的稳定性保障体系,包括线上、线下等多级防控体系;2、参与设计服务端、平台、数据、配置等相关测试体系并应用落地;3、推动稳定性各个方向在业务的落地,包括但不限于监控建设/小流量建设/线上容量压测/容灾预案/稳定性测试保障体系建设,促进各业务稳定性提升;4、主动发现和分析平台业务和中后台服务的稳定性与高可用的薄弱点,抽象问题并给出系统性的保障方案,不断完善稳定性保障体系,提升各产品服务的整体稳定性; 5、参与稳定性测试相关工具的搭建和开发; 6、跟进团队中的事故和故障情况,参与和组织复盘过程,收集团队稳定性相关信息;定期分析事故相关信息,抽象总结,不断完善稳定性保障体系。职位要求:1、3年以上稳定性保障、高可用建设、或相关领域平台建设经验;有研发、质量保障、运维、技术支持经历者优先; 2、熟悉一种或多种编程语言,例如 Python/Go/Java/Shell/C++等; 3、扎实的计算机软件基础知识,熟悉Linux操作系统、存储、网络 IO等相关原理; 4、熟悉微服务研发或架构设计,有分布式系统、中间件、PaaS平台相关经验优先5、有监控体系、DevOps、线上容量压测、故障应急联动、演练平台相关经验优先; 6、熟悉服务端、平台、数据、配置等相关测试体系设计和落地经验优先;7、具备系统化解决问题的能力,较强的业务理解能力,能主动挖掘业务风险,擅长从全局视角对待问题,具备良好的沟通技巧、跨团队协同能力。