岗位职责:1、开发、训练和部署用于运动和操作任务的强化学习算法;2、构建模拟基础设施,支持大规模通用人形机器人运动和操纵策略的训练;3、与控制团队合作,将策略集成到现有的控制堆栈中;4、定义、测试和评估学习策略的性能指标等。任职要求:1、本科及以上学历,计算机、软件工程、自动化、电子信息、机械等相关专业;2、熟练使用PyTorch编写生产质量代码;3、熟悉在线和离线强化学习算法如PPO,SAC等;4、熟悉常见的RL技术,例如:领域随机化、课程学习、奖励塑造等,具有调整这些RL算法的超参数和成本函数的经验;5、熟悉通用ML评估工具,例如 TensorBoard、Weights&Biases等;拥有训练四足或双足机器人运动策略经验者优先。