岗位职责:1、负责统筹监控运维工具的自监控告警、故障出来定位工作;2、负责整理监控相关问题,反馈技术研发人员处理,并跟进问题解决过程,形成闭环记录;3、负责统筹监控运维工具的私有化部署工作,负责资源、监控纳管和接入工作;4、负责监控运维工具的异常检测、根因分析、故障自愈、告警收敛等策略的研究与落地;5、负责监控体系的架构优化和智能化监控的建设,提升监控和告警的精确度;6、参与运维工具设计与实施,参与系统架构的可运维性设计。任职要求:1.掌握主流开源监控软件的架构、配置使用,如prometheus、grafana等;具有生产环境核心组件、业务、数据库(如MySQL、Redis)、中间件(Nginx、Kafka、Flink、Spark Streaming)监控经验;2.熟练网络基础协议,熟练基本网络工具;3.拥有从0到1的大型生产环境的监控体系建设经验者,优先考虑;4.熟悉cicd流程以及相关devops技术;5.熟悉监控(prometheus、zabbix)工具使用6.具备良好的团队合作能力,学习能力,分析解决问题能力,能独立承担任务。