岗位职责:1. 与发版经理及事件经理一起,制定及优化各类系统变更与版本发布流程,规划系统与应用整体监控方案,完善监控、告警与故障处理流程,制定事件应急响应机制。2. 完善通用平台的系统监控、日志分析与操作审计,排查系统隐患,协助处理各类系统故障与紧急事件。3. 协助Infra及Solution团队处理通用平台及其他应用系统相关的云产品与资源问题,并形成记录存档。4. 协助infra团队处理各类通用平台及应用系统安全问题,制定系统安全策略。5. 推进完善系统标准化,包括部署标准化、变更标准化、日志标准化、事件处理标准化等,并形成标准化文档与执行记录。6. 针对发版及事件处理的各个环节,提出改善建议及方案,提升通用平台及其他集团应用系统的整体质量,减少线上事故,提升用户满意度。任职资格:1.本科以上学历、计算机或相关专业毕业,5年以上云计算或数据中心基础设施建设相关运维与架构经验,3年以上大型云平台的实际运维经验,管理过100个节点以上的大型平台系统优先;2.精通Linux操作系统的部署、操作和维护;精通Linux 容器化工具(Docker、Kubernetes),及其生态(容器打包、集群管理和监控、任务编排、运维排错);3.精通主流云厂商产品,有相关认证者优先;熟悉云计算、云网络、云存储相关技术和实现;熟悉网络基础知识,TCP/IP协议工作原理;4.熟练使用脚本语言Python/Shell进行运维脚本开发;5.精通自动化运维和监控平台的架构,熟悉DevOps相关组件的部署和使用;熟悉主流开源的监控平台工具,如Zabbix、Prometheus等,精通阿里云ARMS优先;6.精通系统故障排查处理,具有很强的问题分析和trouble shooting的能力;精通各类运维制度与流程,熟悉各类云安全产品与相关信息安全法律法规;7.具有良好的沟通协调能力,团队合作精神,优秀的执行力;有良好的责任心与主动性,对所负责工作有owner意识;8.能承担较大工作压力,有较强独立分析、解决问题的能力,具备一定的探索创新精神。