岗位职责负责算力集群的硬件产品整体规划和架构设计,根据应用需求和技术趋势,与软件团队合作制定具前瞻性的高效可扩展的架构方案,满足业务发展需求;负责AI服务器及算力集群硬件系统的定义、选型、设计、测试评估和交付,包括计算、管理、网络、存储系统架构,结构和散热等;负责算力集群的硬件选型,成本评估,制定合理的采购计划,与供应商对接,推动外部合作方,确保硬件设备的质量和性价比;带领团队及各合作方,实现算力集群硬件的调试和软硬件联合验证,确保系统的高质量按时交付,并实现规范和完善的文档管理;与软件和运维团队紧密合作,提升硬件平台的可扩展性和兼容性,实现更优的稳定性和可靠性,控制系统整体实现成本和风险;推动IDC的对接和客户端算力集群硬件的搭建,发现并解决客户端问题,形成硬件系统和架构改进的反馈环路;紧跟应用和技术的最新动态,进行新技术评估和导入,推动自研和合作方的横向合作,实现硬件平台的创新和扩展;制订并管理团队的绩效目标,推动部门人才及能力梯队建设,提升部门的技术能力和交付能力,兼顾对供应商的评估和管理;岗位要求10年以上服务器产品硬件设计或系统设计工作经验有5年以上团队管理和项目管理经验;精通GPU算力服务器和高性能计算,网络架构和存储解决方案,对AI算力集群架构的未来发展有深刻理解;精通超节点的拓扑搭建、scale-up互联和scale-out网络体系和存储网络体系的优化定义和搭建;精通服务器硬件开发和测试,PCB开发,结构和散热及周边,IDC硬件对接,软硬件系统联调,可靠性和体系认证;具备优秀的项目管理及团队管理能力;具有自驱力富有创新精神,具备良好的表达能力和沟通协作能力。其他要求有在Tier-1服务器厂商带领团队,担任系统架构设计经验者优先