工作职责:1、设计并实现基于深度强化学习(DRL)的自主决策系统,应用于家电产品的避障、路径规划、多目标优化等任务2、开发混合决策架构,结合经典控制算法(如PID、MPC)与RL策略,提升系统稳定性和泛化能力3、使用Gazebo、PyBullet或自定义环境搭建高保真家电应用场景仿真平台4、设计高效的reward函数及课程学习策略,加速模型收敛5、实现分布式强化学习训练框架,提升训练效率6、将训练好的RL模型部署到边缘设备(Jetson、STM32MPU等),实现实时推理(响应时间