【工作职责】1、负责制定智能算力中心相关运维方案,以及运维项目实施; 2、做好应急故障处理方案和故障演练,进行疑难问题分析; 3、负责编写运维相关的技术文档,根据架构设计方案落地运维方案,推进运维相关工作4、对新技术进行探索和实践,对工作进行持续优化:【任职要求】1、熟悉Linux平台,熟悉IB、RoCE网络,有NVIDIA等GPU集群部署、调度、管理优化经验;2、能够支撑算力中心的计算、存储、网络等工作。3、有较强的文字能力,可独立完成技术文档的编写和算力相关产品的测试报告。4、熟悉NVIDIA、AMD等国内外主流GPU体系架构,有3年以上工作经验,经验中需要有2个或以上算力中心实施经验,精通GPU服务器、存储、IB高性能交换机等,5、有AI计算集群、平台安装、调试、运维经验。6、计算机相关专业毕业,本科以上学历,有较强的学习能力,交付现场沟通、管理、应变能力;有科研院所或高校工作经历者优先。