岗位职责:1、负责公司大数据/Hadoop/Hive/Spark/实时计算的部署、管理、优化、监控报警,保障平台服务7*24稳定可靠高效运行;2、负责Hadoop/Hbase/Spark/Hive/Flink等系统的架构审核、业务监控、持续交付、应急响应、容量规划等;3、跟进并处理系统事件,对系统问题及故障解决跟踪优化,负责服务状况与服务;4、梳理优化业务使用集群的流程及规范,使集群使用在资源利用、质量等方面均达到较高水平;5、日常跟踪业界技术发展动态,并结合业务发展需要,研究引入合适的技术。任职资格:1、大学本科及以上学历,计算机或者相关专业,3年以上大数据生态的运维/开发相关工作经验;2、深入理解linux系统,运维体系结构,精于容量规划、架构设计、性能优化;3、具备一定的故障排查能力,精通一门以上脚本语言(shell/perl/python等),有java开发经验优先;4、熟悉hadoop、hive、hbase、yarn、spark、flink等之组件的原理及运维方式;5、具备集群安全设计运维经验,熟练使用ldap,kerberos或freeIPA;6、具备很强的故障排查能力,有很好的技术敏感度和风险识别能力;7、熟悉常用运维监控工具,包括但不限于nagios/ganglia/zabbix/grafana/open-falcon等,和相关插件的开发。比如邮件、短信、微信报警插件等;8、熟悉常用运维自动化工具,包括但不限于ansible/puppet/SaltStack等代理工具的使用和优化;9、良好的服务意识,善于团队协作;能够承受较大的工作压力;10、平台运维工具或系统自主开发经验优先;11、有PB级数据平台运维经历,有RedHat证书优先。