岗位职责:欢迎加入摩尔线程KuaE SW组,我们专注于大模型在 KuaE GPU 集群的分布式训练稳定性及可观测性,通过构建领先的分布式训练体系,支持万卡规模大模型训练,为国产大模型的发展助力。加入我们,一起探索技术的无限可能!1. 大规模分布式训练稳定性策略开发及调试。2. 大规模分布式训练可观测体系的开发及优化。3. 大模型训练的接入及开发。4. 提供远程或现场的技术支持,解决客户在进行大规模分布式训练中遇到的技术问题。5. 编写和维护技术文档,包括故障排除指南、用户手册和***实践。6.调研业界最新的分布式训练技术及方案。7. 深度参与研发产品特性开发,为研发产品支持新特性。任职要求:1、 计算机科学、电子工程或相关领域的本科及以上学历。2、良好的逻辑思维能力,精通计算机数据结构和算法;3、熟悉至少一种编程语言,如GoLang、Python等。4、熟悉云原生体系,对 Kubernetes,Docker ,Containerd 有一定的了解及使用经验。5、 熟悉大模型训练,对当前最新大模型如Llama、Qwen、ChatGLM 等有一定的了解,***是做过大模型相关的训练。6、 至少有一种机器学习框架使用或者开发经验,如PyTorch、Megatron-LM、DeepSpeed、PaddlePadde、Colossal-AI 等。7、 对大规模分布式训练技术感兴趣,期待做有挑战性的事情;有 owner 意识,具备团队合作的能力。