发表了文章
该示例演示了用于自动搜索和停车任务的混合控制器的设计。 混合控制器使用模型预测控制(MPC)跟随停车场中的参考路径,并使用训练后的强化学习(RL)智能体执行停车操作。
本文展示了如何训练一个具有离散行动空间的近端策略优化(PPO)智能体来控制火箭降落到地面。
此方法使用基于模型的深度强化学习。基于潜在特征推断所有智能体之间的关系,并使用图卷积网络对每个智能体的状态表示中的高阶交互进行编码,随后用于状态预测和值估计。在完成对环境与机器人的交互建模后,使用基于模型的强化学习方法,学习导航策略。