岗位职责:1、负责智算中心高性能服务器主机、网络、安全建设交付,包括IaaS层设施硬件维护、资产管理、应急保障和现场运维配合等。2、负责智算中心资源布局规划、统筹建设、日常维护和管理,确保智算中心的正常运行。3、负责GPU集群的日常管理和优化,提升利用率和易用性,并前瞻性地解决网络、电力、硬件可能发生的问题。4、参与项目进度计划和实施计划的制定并执行,配合项目经理完成项目进度计划和实施计划,确保项目按时、按质完成。5、负责对设备进行上下架、综合布线、配置变更、系统安装、网络调试、硬件维护等工作。6、负责与运营商、机房、设备原厂等沟通,解决相关问题,确保智算中心的顺利运行。任职要求:1、熟悉CPU、网卡、GPU、RAID卡等主要部件的基本工作原理,能够独立进行安装、调试及故障排除。2、熟悉Linux平台,能够对服务器进行基础维护与管理,熟悉Shell/Python,熟悉K8S, docker2,可以独立组织团队完成算力集群组网工作。3、至少5年以上相关经验,有AI行业及智算行业从业经验者优先。4、具有较强的学习能力,能够通过用户手册、技术资料快速定位和排查故障。5、具备良好的沟通能力和团队合作精神,能够承担工作压力。