岗位职责:1.负责IT运维工作的计划、管理、总结与汇报,致力提升企业IT运维管理能级和运维服务水平;2. 虚拟机/容器/集群相关的环境部署与开发维护;带领团队监控性能情况、资源可用情况和其它关键指标,规划、维护和管理云平台的备份和恢复,评估并组织修复故障或解决问题,确保其安全稳定运行;3.带领内外运维团队高效处理IT服务工单,完成系统资源发放、安装配置、日常运维、故障处理、数据备份等工作;4.与IT项目团队密切合作,从应用模式、系统规划与配置、开发运维模式等方面提出合理建议,参与系统架构、后期运维等相关文档的编写;5.负责监督考评各运维服务方运维服务情况;6负责运维工程师的培训带教工作;7及时响应和处理内部以及客户的支持需求、故障报警,及时响应时间段为周一到周日8.完成领导交办的其他任务。职位要求:1. 熟悉常见Linux操作系统,包括不限于Redhat、Ubuntu系列2. 熟悉Iptables、GPU直通、KVM虚拟化,会使用virsh、qemu等命令管理虚拟机3. 维护过至少一种虚拟化平台,包括不限于VMware EXSI,PVE、Ovirt等4. 熟悉docker、lxc等容器技术,会使用至少一种编排技术5. 熟悉Zabbix、grafana监控平台,能够根据需求自定义监控项、告警通知等6. 了解解tcp/ip七层协议,知道每层的工作原理,会使用Wireshark、tcpdump等工具抓包进行简单分析;7. 了解vlan、acl、nat、堆叠、vpn等基础网络知识,能操作配置交换机8. 了解块设备、文件系统、对象存储,知道应用场景;9. 熟悉ceph部署、管理和调优、有nas运维经验10. 有数据安全意识、网络安全意识,了解常用数据备份方式11. 有带外管理经验,实施过带外管理,12. 了解gpu的各种环境, pytorch等, 能制作docker或者kvm的环境.13. 至少会用一种自动化运维工具,能使用sh、python编写运维脚本14. 加分项:多级数据备份经验、精通python, 精通pxe,, 精通ansible脚本.了解机房环境,有资产管理经验。15. 有hcip或同等证书、cissp或者同等证书优先16. 为人乐观积极向上,会自主学习能力优先