岗位职责:1、负责GPU服务器硬件诊断、维修、维护等工作;2、研究了解GPU服务器个应用场景下硬件故障特点,并提供优化建议;3、洞察GPU硬件技术趋势,对各OEM设备进行拆解分析、编写维修手册; 4、为重点客户及大项目提供技术支撑,持续改进与优化维护方案;5、能适应全国数据中心出差;任职资格:1、专科及以上学历,计算机、通信、电子工程等相关专业背景,有3年以上的运维工程师相关经验;2.有大规模 GPU 集群的环境配置及管理经验优先;包括安装、配置、故障排除和升级3.具备硬件调优经验,熟悉GPU驱动程序和性能监控工具。4.熟悉高性能计算(HPC)和并行计算技术,有实际项目经验者优先。6.熟悉Linux服务器操作系统,具备网络领域经验,包括但不限于网络设计与实施、网络维护与优化、安全管理7.具有GPU服务器生产、维修工作经验者优先;8、对GPU服务器架构关键技术有深入的理解,对GPU硬件技术发展趋势有自己的判断;9、对硬件测试工具及方案,具备一定经验,有较强的逻辑思考能力、动手能力;