岗位职责:1. 负责云平台的可用性保障,包括但不限于k8s集群管理、监控及相关业务支撑;2. 负责云平台的容量规划、基础设施保障、初始化配置、日常故障处理等工作;3. 负责云平台的监控告警体系建设,按照实际场景编写告警规则,定制监控Dashboard;4. 制定云平台运维On Call策略、标准流程及规范,完成运维工作文档的编写;5. 负责编写各种运维脚本及工具,推动自动化运维;6. 负责向云平台贡献基础设施代码;任职要求:1. 计算机科学、电子工程或相关领域的学士学位,研究生学位优先。2. 至少五年相关领域的工作经验,具有GPU集群管理和维护经验者优先。3. 熟悉Linux操作系统和网络基础设施。4. 精通一种或多种脚本语言(如Go、Python等)。5. 有使用和管理大规模分布式系统的经验,熟悉Kubernetes等容器化技术者优先。6. 具备优秀的问题解决能力和团队合作精神。