学历要求硕士及以上专业要求 人工智能、计算机、电子信息、软件工程、通信工程、网络安全等相关专业岗位职责 1. 负责万卡规模 AI Infra 机器学习平台的架构设计、研发与系统优化,为大模型训练和推理业务提供高性能、高可靠性的科研支持平台。2. 领导 AI 任务的性能监控和调优工作,通过深入分析 Profiling 数据,发现并解决计算、存储、网络等方面的性能瓶颈,提升科研任务的执行效率。3. 负责前沿机器学习技术的调研、评估和引入,包括但不限于超大模型训练优化、异构计算加速、云端协同等,推动科研创新。应聘资格要求 1. 硕士及以上学历,计算机科学、机器学习、人工智能或相关领域2. 具有 1 年以上的机器学习平台或相关领域的研发经验,有***学术会议或期刊成果发表3. 熟练掌握至少一门编程语言如 Golang/Python/C++/C,具备独立承担复杂系统开发的能力4. 熟悉深度学习和 Transformer 基本原理,具有丰富的模型训练、推理框架使用经验5. 熟练使用模型训练性能分析工具(如 PyTorch Profiler,Nsight),具备优秀的数据分析能力6. 对大模型训练系统有深刻理解,熟悉高性能计算网络、分布式存储系统的设计和优化7. 具有出色的责任心、团队领导力、沟通协作能力和自驱学习能力加分项:1. 具有使用昇腾深度学习组件(MindX DL)的经验,或在计算机体系结构领域有显著科研成果。2. 熟悉 Docker/Containerd、Kubernetes 及其生态系统,具有云计算平台的研发经验。3. 在高性能网络、大数据存储架构的研发方面有实际项目经验,展现出卓越的技术洞察力和创新能力。