工作职责:1、主要负责参与SRE体系中监控报警平台的搭建和开发工作2、负责参与容量规划、故障演练、持续交付、配置管理及可用性保障工作3、负责保障公司核心生产系统可靠、安全、稳定运行,通过全方位数据运营,推动持续优化4、负责运维工具开发,并持续改进现有工具架构,建设自动化平台 任职资格:1、具有5年及以上互联网行业SRE工程师、系统架构师经验,熟悉AWS或阿里云2、具备大型互联网应用、分布式应用架构设计能力3、具备Python语言开发能力;4、熟悉监控报警平台,具有Prometheus监控系统的使用及配置经验5、熟悉主流中间件,具有Kubernetes、Mysql、Redis、Nginx等云原生组件运维技能6、熟悉SRE运维体系、具有大型生产环境SRE运维经验者优先7、具有良好的沟通能力、学习能力、责任心