岗位职责1.负责AI基础设施的整体架构规划和设计,包括架构设计、设备选型、组网设计、上架测试、集群调试、后期运维。为科研提供高效、稳定的Iaas(Infra)和PaaS(MLops\MLsys)方案和平台;2.负责英伟达算力和国产算力集群设计解决方案,负责AI基础设施,GPU服务器,IB/Roce交换机、算力集群的组网,分布式存储的实施和方案制定;3.负责维护大规模AI基础设施集群,以满足大规模AI分布式训练和推理的性能和稳定性要求。4.负责与厂商和内部团队紧密合作,把控需求分析、技术选型、方案实施、测试验收、运行维护等全流程;任职要求:1.本科及以上学历,计算机科学,电子工程,自动化等相关专业,具有扎实的计算机基础知识;2.三年以上AI智算基础设施解决方案架构设计,熟悉主流的计算,存储,网络及云,大数据等整体的解决方案和思路,能根据技术路线开展实施;3.熟悉集群使用、InfiniBand/ROCE等RDMA技术;4.有分布式系统或大数据处理相关项目经验优先;5.熟悉Linux操作系统和Python等编程语言优先;6.具有复杂问题分析及抗压能力,良好的沟通能力;