岗位职责: 1、负责k8s平台的自动化流程规划和维护,保障平台的平稳运行; 2、负责跟进核心故障处理,攻坚故障原因和跟进优化落地; 3、持续打磨监控体系与应急预案体系,提升监控效率,缩短故障定位时长。 4、能够主导容灾优化、性能优化等项目; 建立标准化运维指引手册,提升运维团队的技能水平。 5、负责线上系统可靠性改进,通过持续的全方位数据指标(包括可用性指标、历史事故、资源利用率等),找到系统薄弱点,推动技改方案落地; 6、积累运维***实践,为业务架构设计提供建议。任职要求: 1、统招本科及以上学历,计算机相关专业,5年以上大型互联网平台高并发应用的运维保障经验; 2、具备丰富的大规模服务集群的运维经验; 3、负责过运维体系层面的系统性规划和建设; 4、熟悉K8S技术体系, 熟悉常见开源技术,如: REDIS, Nginx,MySQL,Rocketmq,Prometheus, CI/CD,Ansible等; 5、熟悉主流的云平台; 6、具有互联网思维和集群管理能力,良好的跨部门沟通及团队协作能力; 7、具有良好的主观能动性和责任心, 有强的跨部门推动力。