岗位内容:1、模型研发与优化:负责视觉语言行动模型(VLA)的研发,结合视觉、语言和动作模态,实现从多模态输入到机器人动作输出。探索和实现基于Transformer架构的VLA模型,如OpenEMMA、EMMA等,优化模型的性能和效率。2、任务规划与控制策略:设计和开发低级控制策略,用于执行短期任务指令并生成可执行的动作序列。研发高级任务规划器,将复杂的长期任务分解为子任务,提升模型的泛化能力和灵活性。3、数据处理与预训练:参与大规模多模态数据集的收集、处理和标注,支持模型的预训练和微调。探索和应用预训练视觉和语言模型,提升VLA模型在复杂环境中的感知和决策能力。4、技术研究与创新:跟踪VLA领域的***动态,探索新的模型架构和算法优化方法。参与相关技术的学术研究和论文发表,推动团队技术能力的提升。岗位要求:1、专业背景:计算机科学、人工智能、控制、机器人技术或相关专业硕士及以上学历。2、技术能力:熟悉VLA、VLM、LLM等多模态模型的开发和训练,具备实际项目经验。3、精通Transformer架构,了解RT-2、OpenVLA、OpenEMMA、EMMA等模型的原理和应用。熟练掌握深度学习框架,如PyTorch、DeepSpeed等。4、实践经验:有多机、多卡的大模型训练经验。加分项:熟悉模仿学习、强化学习理论,有相关领域的研究或落地经验。在计算机视觉、自然语言处理或机器人领域有顶会论文发表或竞赛获奖。