强化学习在仿真模拟环境中取得了较大成功,但在真实世界的实际系统中缺乏安全保证,无法有效的进行探索。针对传统深度强化学习在运动体训练过程中缺乏安全保证的问题,本文结合深度确定性策略梯度算法及控制障碍函数算法在事后经验回放的样本采样机制下提出了一种控制器的体系结构,无模型强化学习控制器在控制障碍函数的约束下进行在线学习,以确保学习过程中的安全性,同时为了解决奖励稀疏问题,引入了事后经验回放算法,对中间状态也给予奖励。最后通过一个一阶积分器模型的避障任务验证了算法的可行性与有效性。
1 问题描述
系统描述
本文研究的运动体运动学方程为:
其中
将
其中
结合二次规划 (1.4), 将控制障碍函数做为约束条件, 进行求解:
其中
目标到达任务系统状态
(1)状态空间
(2)目标区域(Goals): 目标描述了目标的期望位置, 具有一定固定的容差, 也就是
(3)奖赏(Rewards): 奖赏是二进制值, 即稀疏奖赏, 通过
(4)观察(Observations):观察矢量包含小车的绝对位置、物体与目标之间的相对位置、 物体与障碍之间的相对位置。给出了四轮小车的位置、速度、方向以及所有障碍物的位置。
(5)动作(Actions): 二维动作空间:
2 控制障碍函数
障碍函数最先用于优化问题, 它是一种制约类函数, 亦称内惩罚函数。在数学领域约 束优化中, 障碍函数是一个连续函数, 通过更容易处理的目标函数中的惩罚项来代替不等 式约束, 其中点的值随着点到达优化问题的可行区域的边界而增加到无穷大。控制障碍函 数与障碍函数的作用类似, 也是从优化问题的约束入手, 对目标函数形成区域性惩罚, 保 证目标点一直处于可行域之内。不同的是控制障碍函数与李雅普诺夫函数形式类似, 满足 李雅普诺夫函数的相关理论。本节介绍了控制障碍函数的形式, 并将控制避障函数的理论 与二次规划问题结合, 体现出了在仿射系统下二次规划与控制障碍函数的真正用处。
控制障碍函数的形式
考虑一个非线性系统的形式:
其中
给定一个闭集
假设集合
其中,
受优化中障碍函数对数形式的启发, 我们考虑如下形式的对数障碍函数:
此满足以下性质:
上述问题变成了对
其中
为了保证
根据(2.4)对
结合公式
假设非线性系统的解
因此, 如果
除了上述倒数障碍函数, 优化中还经常使用的是倒数形式(inverse-type)障碍函数:
根据比较引理得到:
同理可以知道, 对于所有的
基于二次规划的障碍函数避障算法
在实际系统中, 大多数对象动力学方程都可通过欧拉-拉格朗日方程建模成仿射形式, 那么考虑运动体可以用一个非线性仿射模型进行描述:
其中,
其中
定义障碍函数:
其中,
定义如下关于控制输入
可以得到, 当
下面进行避障场景下的障碍函数构造, 图 2-1 为运动体与障碍物相对位置示意图:
图 2-1 运动体与障碍物相对位置示意图
假设运动体速度文是有界的:
假设
障碍函数是小车的位置
对
当障碍函数
即
其中,
根据期望条件与(2.20)约束条件进行二次规划算法 (QP) 的组合, 将运动体安全问题 转换成二次规划求解问题:
其中
3 强化学习算法
在强化学习领域, 按照输入数据类型可以分为基于值函数的强化学习方法和基于策略 梯度的强化学习方法。基于值函数的强化学习方法是一种面向离散控制的算法, 也就是说 输出的动作是离散的, 不是连续的。在本文中, 需要控制为运动的小车, 小车电机转动输 出是连续值, 也就是在一个范围内任意取值。即使把每一个输出离散化, 对于四个电机的 小车环境, 是一个十分庞大的动作空间, 已经无法用于正常训练; 而且如果想进一步提升 这个精度, 那么最终取值的数量就会成倍增加。而策略梯度方法是一种学习连续的行为控 制策略的方法, 通过将策略参数化, 训练得到一个最优策略, 直接输出具体的动作值。因 此本文最终采用基于策略梯度优化的深度强化学习方法为基线算法, 而后与事后经验回放 算法、控制障碍函数算法分别进行组合对比。
深度确定性策略梯度算法
深度确定性策略梯度 (Deep Deterministic Policy Gradient) 方法, 是结合了深度学习和 确定性策略梯度方法的一种算法; 该方法是使用了强化学习中经典的 Actor-Critic 框架, 并 借鉴了
图 3-1 深度确定性策略梯度算法框图
DQN 方法是 Deep network 和 Q-learning 相结合的一种方法, 其算法动作价值函数的更 新公式为:
从公式可以看出,
图 3-2 DPG 原理图
给定状态
如果当前状态是
用梯度上升算法来增大
它是
通过链式法则
其中
对于价值网络, 就是期望价值网络给出的
利用时序差分计算损失值, 损失函数为:
其中
得到价值网络的参数更新公式:
这样通过不断的交替更新价值网络与策略网络即可求出最优策略。
随后, DeepMind 又在 2016 年提出 DDPG 算法,全称是深度确定性策略梯度 (Deep Deterministic Policy Gradient), 是将深度学习神经网络融合进 DPG 的策略学习方法。其原 理图如图 3-3 所示:
图 3-3 DDPG 原理图
其中 Critic 网络的作用是估计
事后经验回放算法
在稀疏奖励环境[21]下的高效学习是深度强化学习(DRL)的一个重要挑战。一个常见的 挑战, 特别是对于机器人来说, 是需要设计一个奖赏函数功能, 它不仅反映了当前的任务, 而且还需要正确地指导智能体优化策略[22]。奖赏函数的设计限制了 RL 在现实世界中的适 用性, 因为它既需要 RL 的专业知识, 也需要特定领域的知识。此外, 在不知道什么是可 接受的行为的情况下, 它也不适用。因此, 开发能够从非定性奖赏信号(如表明任务成功完 成的二进制信号)中学习的算法具有很大的实用意义。与当前强化学习智能体不同的是, 人 类拥有的一种能力是, 可以从不期望的结果和期望的结果中学到几乎一样多的东西。想象 一下, 你正在学习如何打曲棍球, 并试图将冰球射入网中。你击中了冰球, 但它没有在右 侧入网。强化学习智能体在这种情况下得出的结论是如果在执行的一系列动作后不能成功 入网, 那么智能体将认为该过程无法学习到有用的知识。
事后经验回放技术则不需要任何领域来设计奖赏函数。在稀疏奖励的环境中, 如果智 能体观测序列
(1) Final-从与环境最终的状态对应的目标中采样虚拟目标
(2) Future-从同一个回合的末来时间步中采样虚拟目标 g';
(3) Episode-从同一个回合中随机采样虚拟目标 g';
(4) Random-在整个训练过程中采样虚拟目标
事后经验回放(HER)技术通过使用已实现的目标 ag 代替期望目标
表 3-2 事后经验回放伪代码
基于 CBF 补偿的强化学习安全控制
强化学习
由于控制障碍函数具有强约束性的特点, 将强化学习策略探索过程中的动作输出作为 标称控制器的输出, 即控制障碍函数的输入, 以保证探索过程中的实时安全, 其与环境交 互的原如图 3-4:
图 3-4 基于
运动体执行的动作为:
在无模型强化学习的策略探索中,
其中
4 仿真实验
为了验证基于强化学习与控制障碍函数的运动体安全控制算法的有效性, 采用高保真 仿真平台 Pybullet 进行环境的搭建与算法的运行。这里我们选用了麦克纳姆四轮小车做为 控制对象,因其轮子带有多个小辊子可实现车体的全向移动,在理论公式中可将其视为一 阶积分器
首先我们对小车的运动学进行建模分析。运动学分析以
图 4-1 O-长方形式麦克纳姆轮布局三维模型图
底盘的运动可以分解为平动速度
图 4-2 底盘速度分解示意图 由速度向量的分解得到轮子的转速为:
那么四个轮子的各自速度为:
根据运动体的速度与轮子的转速关系, 控制麦克纳姆小车完成动作的执行。同时根据 模型的仿真参数表 4.1 , 在 pybullet 环境下进行四轮小车的搭建。
表 4. 1 四轮小车仿真模型参数表
参数 | 说明 | 数值 |
---|---|---|
m | 四轮小车总质量 | 3.8kg |
g | 重力加速度 | 9.8m/s2 |
dx | 质心在机体坐标系 x 轴位置 | 0.055m |
dy | 质心在机体坐标系 y 轴位置 | 0.055m |
dz | 质心在机体坐标系 z 轴位置 | 0m |
Jcx | 小车绕惯性主轴 x 的转动惯量 | 0.05851kg·m2 |
Jcy | 小车绕惯性主轴 y 的转动惯量 | 0.05851kg·m2 |
Jcz | 小车绕惯性主轴 z 的转动惯量 | 0.1053kg·m2 |
为了验证强化安全控制算法, 最终搭建实验环境如图 4-3, 采取了一个身避障碍(图 中紫色正方体) 到达目标 (图中绿色圆形区域) 的实验任务, 运动体 (四轮小车) 需要绕 过紫色障碍, 安全到达绿色区域即可获得相应奖励。同时为了验证本文的算法, 分别以连 续奖励下的深度确定性策略梯度算法, 稀疏奖励下的深度确定性策略梯度结合事后经验回 放算法及稀疏奖励下的深度确定性策略梯度结合事后经验回放算法与控制障碍函数算法三 个算法进行对比实验。
图 4-3 避障仿真实验环境图
在目标到达任务中:
(1)状态(States):状态包括四轮小车的位置、速度、方向以及所有障碍物的位置。
(2)目标(Goals):目标描述了目标的期望位置, 具有一定固定的容差, 也就是
(3)奖赏(Rewards): 奖赏是二进制值, 即稀疏奖赏, 通过
(4)观察(Observations): 观察矢量包含小车的绝对位置、物体与目标之间的相对位置、 物体与障碍之间的相对位置。给出了四轮小车的位置、速度、方向以及所有障碍物的位置。
(5)动作(Actions): 二维动作空间:
在对比实验中, 使用原始的 DDPG算法作为基准算法, 本文提出的算法为 DDPG
异策略强化学习算法使用的是 DDPG, 该算法是行动者-评论家网络结构, 该结构有两 个
由图4-4可以看出:
(1)深度确定性策略梯度算法在避障任务环境中并不收敛,成功率一种为0。说明在没有事后经验回放(HER)的机制下算法很难探索到目标区域,经验池中有限的目标点不足以支持算法的计算收敛。
(2)在三个算法中DDPG+HER+CBF相比于DDPG+HER收敛速度更快,成功率更高,说明本文提出的强化学习与控制障碍函数结合的算法相比于传统的强化学习算法性能有了较大提升。
实验效果视频请查看: https://live.csdn.net/v/224968
5 参考文献
[1] Sutton R S, Barto A G. Reinforcement learning: An introduction [M]. MIT press, 1998.
[2] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks [J].science, 2006, 313(5786): 504-7.
[3] Deng L, Yu D. Deep learning: methods and applications [J]. Foundations and trends® in signal processing, 2014, 7(3–4): 197-387.
[4] Bengio Y, LeCun Y. Scaling learning algorithms towards AI [J]. Large-scale kernel machines, 2007, 34(5): 1-41..
[5] Lange S, Riedmiller M. Deep auto-encoder neural networks in reinforcement learning; proceedings of the The 2010 international joint conference on neural networks (IJCNN), F, 2010 [C]. IEEE.
[6] Lange S, Riedmiller M, Voigtländer A. Autonomous reinforcement learning on raw visual input data in a real world application; proceedings of the The 2012 international joint conference on neural networks (IJCNN), F, 2012 [C]. IEEE.
[7] Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with deep reinforcement learning [J]. arXiv preprint arXiv:13125602, 2013.
[8] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search [J]. nature, 2016, 529(7587): 484-9.
[9] Berner C, Brockman G, Chan B, et al. Dota 2 with large scale deep reinforcement learning [J]. arXiv preprint arXiv:191206680, 2019.
[10] Vinyals O, Babuschkin I, Czarnecki W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning [J]. Nature, 2019, 575(7782): 350-4.
[11] Tai L, Liu M. Towards cognitive exploration through deep reinforcement learning for mobile robots [J]. arXiv preprint arXiv:161001733, 2016.
[12] Tai L, Paolo G, Liu M. Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation; proceedings of the 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), F, 2017 [C]. IEEE.
[13] Gaskett C. Reinforcement learning under circumstances beyond its control, F, 2003 [C].
[14] Gillula J H, Tomlin C J. Guaranteed safe online learning via reachability: tracking a ground target using a quadrotor; proceedings of the 2012 IEEE International Conference on Robotics and Automation, F, 2012 [C]. IEEE.
[15] He C R, Jin I G, Orosz G. Data-based fuel-economy optimization of connected automated trucks in traffic; proceedings of the 2018 Annual American Control Conference (ACC), F, 2018 [C]. IEEE.
[16] Koller T, Berkenkamp F, Turchetta M, et al. Learning-based model predictive control for safe exploration; proceedings of the 2018 IEEE conference on decision and control (CDC), F, 2018 [C]. IEEE.
[17] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms; proceedings of the International conference on machine learning, F, 2014 [C]. PMLR.
[18] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning [J]. arXiv preprint arXiv:150902971, 2015.
[19] Prajna S, Jadbabaie A, Pappas G J. A framework for worst-case and stochastic safety verification using barrier certificates [J]. IEEE Transactions on Automatic Control, 2007, 52(8): 1415-28.
[20] Khalil H K. Nonlinear systems third edition [J]. Patience Hall, 2002, 115.
[21] 杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(03):182-191
[22] Ng A Y, Harada D, Russell S. Policy invariance under reward transformations: Theory and application to reward shaping; proceedings of the Icml, F, 1999 [C].
评论(1)
您还未登录,请登录后发表或查看评论