岗位职责:1.负责AI基础设施(服务器、交换机),算力集群的组网、实施和方案制定;2.负责与厂商和内部团队合作,把控需求分析,技术选型,测试验收,运行维护全流程;3.与硬件厂商紧密合作,及时解决在国产GPU适配过程中出现的技术问题,推动双方技术的协同发展;4.集群的日常管理:驱动升级,资源回收,性能监控等;5.交换机的配置管理;任职要求:1.本科及以上学历,计算机科学,电子工程,自动化等相关专业,具有扎实的计算机基础知识;2.三年以上企业级基础设施解决方案架构设计,熟悉主流的计算,存储,网络及云,大数据等整体的解决方案和思路,能根据技术路线开展实施;3.熟悉kubernetes集群使用、InfiniBand/RDMA等技术;4.有分布式系统或大数据处理相关项目经验;5.熟悉Linux等常用命令;6.具有复杂问题分析及抗压能力,良好的沟通能力