论文阅读

看文章我觉得,先看摘要,摘要基本能够让你了解这篇文章做了什么,但做论文笔记我先会从介绍写起,最终回到摘要


Path Planning for UAV Ground Target Tracking via Deep Reinforcement Learning

  • 论文阅读
  • 一、INTRODUCTION
  • 二、BACKGROUND
    • 2.1 深度确定性策略梯度(DDPG)算法
    • 2.2 观察空间和行动空间
  • 三 基于DDPG的改进
    • 3.1 学习框架
    • 3.2 奖励功能
    • 2.3.3 ACTOR RECURRENT CRITIC
  • 四、实验
    • 4.1 EXPERIMENTAL SETTINGS
    • 4.2 仿真和性能分析
  • 五、总结(回到摘要)


一、INTRODUCTION

  随着人工智能技术的快速发展,深度强化学习(DRL)凭借其优秀的环境意识和决策控制性能在越来越多的领域发挥了重要作用。强化学习可以直接将环境状态映射到控制信号,为无人机轨迹规划提供了一种动态规划解决方案。在在线路径规划过程中,飞行环境通常是本地的或完全未知的。如何利用不完整信息对动态环境做出反应是无人机在线路径规划中的一个关键问题。强化学习具有鲁棒性强、独立于环境模型和先验知识的优点,通过试错解决了在线路径规划问题。
  复杂、动态和部分可观测的环境是无人机目标跟踪的主要挑战。为了克服这些困难,本文作者在奖励功能和数据方面改进了DDPG。
  本文的主要贡献如下:
1)建立了一个目标跟踪和避障的DRL模型。
2)基于LSTM的 Critic network and actor network的设计并得到了良好的训练。
3)构建了一个目标跟踪和避障的虚拟仿真环境。结果表明,该算法具有良好的性能和良好的推广性。

二、BACKGROUND

2.1 深度确定性策略梯度(DDPG)算法

  DDPG算法是基于DPG算法所提出的。
  DDPG有四个网络:分别是 Actor当前网络 、Actor目标网络、Critic当前网络、Critic目标网络
  A.DDPG具有时间离散性的代理-环境交互过程可以表示为轨迹:S0, A0, R1, S1, A1, R2, S2 . . .
  其中,St、At和Rt分别代表步骤t中的状态、行动和奖励。如果轨迹满足马尔可夫性质,也就是说,Rt+1和St+1的值有定义良好的离散概率分布,只依赖于前面的状态St和动作Rt,我们可以将这个交互作用过程称为马尔可夫决策过程(MDP)代理尝试选择行动,以便使未来折扣奖励的总和最大化。步骤t后的折扣奖励之和可定义为,返回Gt:
在这里插入图片描述
其中,γ∈[0,1]是一个参数,称为贴现率,用于确定未来奖励的当前值。策略是从状态到行动的映射,它决定了代理的行为,它通常是状态的概率分布。确定性的策略梯度算法输出特定的行为,而不是概率。确定性策略π可以定义为一个函数:
在这里插入图片描述
其中,θ是指该函数的参数。我们的任务是找到一组参数θ使π最佳或使Eπ[G0]最大,其中Eπ[·]表示一个随机变量的期望值,给定代理遵循策略π。为了找到参数,我们定义了两个函数,状态值函数vπ(s)和动作值函数qπ(s,a)。vπ(s)表示策略π下的状态值,是从s开始和之后的π开始时的预期返回,可用公式表示:
在这里插入图片描述
qπ(s,a)表示在策略π下在状态中采取操作a的值,是从s开始,采取操作a,然后在策略π之后的预期返回,可用公式表示:
在这里插入图片描述
状态与作用值函数之间的关系可以用贝尔曼方程来描述,而确定性策略的贝尔曼方程被定义为:
在这里插入图片描述
其中,η是值函数的参数。策略优化有两个步骤,第一步是值更新。使用时间差异学习更新值函数:
在这里插入图片描述
并且参数η可以通过以下方式进行更新:
在这里插入图片描述
第二步是政策上的改进。根据贝尔曼方程的梯度,计算它对St的期望,得到递推公式:
在这里插入图片描述
使用(9)和(10),我们计算了策略梯度:
在这里插入图片描述
在每个时间步长中,我们都会根据以下条件更新参数θ:
在这里插入图片描述
DDPG的原理与确定性策略梯度DPG的原理相同。主要的区别在于在DDPG中使用了经验回放和目标网络技术.

2.2 观察空间和行动空间

  可以从环境中得到的观测结果包括无人机的位置和速度、目标的距离和方向、传感器方向上的障碍物距离。具体环境我们会写在下面进行讲解。考虑到动态环境和泛化,我们放弃了无人机的位置,保留了速度v和方向ψ。我们使用相对方位角[χ,d0]来表示无人机和目标之间的关系。我们使用由传感器测量到的距离来表示无人机和障碍物之间的关系。观测空间:o=[ψ,χ,d0,d1,d2,…,其中n表示传感器的数量,ψ,χ∈[−π,π],d0∈[0,+∞],d1∼dn∈[0,dmax]。
  无人机是大规模环境下规划轨迹的一个点,其三维连续时间运动模型如下:
在这里插入图片描述
  其中[x、y、z]是三维空间中无人机的坐标。[v、ψ、γ]分别表示速度、偏航角、俯仰角。[u˙ψ,uγ˙,u˙v]是控制命令。为了简化,我们将轨迹规划问题限制在二维连续状态环境中,并将速度设置为常值。简化的动态离散模式1如下:
在这里插入图片描述
  目标跟踪的任务是驾驶无人机在最短的时间内到达目标位置,并保持其在边界内而不与任何障碍物碰撞。动作a是指ψ的变化,而真实无人机的控制量通常表示为加速度[40]。为了保证动作,后续部分考虑加速和动作之间的机械系统。在水平方向上,移动无人机上的力满足以下关系:
在这里插入图片描述
正常加速度a0显示为:
在这里插入图片描述
其中,ρ为路径的曲率半径,如图2所示。AB和BC具有相同的长度,这等于无人机在半采样周期内行驶的距离。根据几何关系,我们的曲率半径为:
在这里插入图片描述
其中,1t是采样时间间隔。因此,我们有了加速和行动之间的关系:
在这里插入图片描述
该关系可用于确定动作范围,或可用于检查所选动作范围是否合理。如果加速度范围被真实无人机的机动性所覆盖,生成的轨迹可以被无人机跟踪。

三 基于DDPG的改进

  作者分别改进了本部分在框架、奖励功能和网络方面的DDPG。

3.1 学习框架

  无人机目标跟踪和避障的DRL框架包括三个模块:
                       1)环境描述模块
                       2)DRL控制模块
                       3)无人机模块
  改进的无人机目标跟踪的DRL框架图:
在这里插入图片描述

3.2 奖励功能

  强化学习使用奖励来估计预期的回报,并获得最优的策略。奖励功能的设置与培训结果的质量密切相关。一种更简单的方法是基于结果来设置稀疏的奖励,也就是说,每一集只根据任务是否可以完成而给予正的或负的奖励。该方法具有较强的适用性,可用于各种环境模型,缺点是网络更新收敛速度慢,算法容易达到局部最优值。
  为了提高效率和实用性,设计了一种非稀疏奖励来指导无人机跟踪、避障环境,包括服务水平奖励、距离奖励、终端奖励和行动处罚。服务水平是无人机与目标之间的界限,服务水平奖励设计为:
在这里插入图片描述
  其中λ为正常数,|χ−ψ|是速度坐标系中的服务水平角。服务水平角度越小,无人机接近目标的速度就越快。一旦服务水平大于π2,无人机就会飞离目标。直瞄的物理意义是,无论无人机在哪里,只要飞向目标,它就能获得更高的奖励。右服务水平是引导无人机飞向目标的最重要的奖励。障碍奖励的设计为:
在这里插入图片描述
  其中,σ是一个负常数。奖励由人工势场转换,表示传感器方向上障碍物排斥场的重叠值。
  最终奖励与任务的成功有关,其设计为:
在这里插入图片描述
  其中k为正常数,dmin1是避障的阈值,dmin2是目标跟踪的阈值。终端是一个稀疏奖励的物理意义是,无论无人机的方向,它可以获得更高的奖励只要其距离目标小于一个阈值,它将得到更高的惩罚只要与障碍的距离小于另一个阈值。如果触发了这两种条件中的任何一种,无人机将被重新初始化。遥控终端的主要功能是引导无人机避开障碍物,并在目标周围盘旋。
为了使轨迹更平滑,给予一个动作惩罚如下:
在这里插入图片描述
其中α为负常数,1a表示相邻时间内动作的变化。总之,我们给出了最终的奖励功能:
在这里插入图片描述
  在以往的研究中,稀疏奖励终端是一种常见的奖励函数。然而,我们发现由rtender训练的模型进入局部最优的概率很高。由局部最优模型控制的无人机只考虑避障,而忽略目标。当利用多架无人机协同探索环境时,局部优化问题得到了缓解,而训练结果仍不稳定。在我们的研究中,我们设计了奖励服务水平,无人机将前往目标获得更多的奖励。应用实时服务水平减少了无意义的巡逻和盘旋飞行,大大提高了训练成功率,进一步缓解了局部优化问题。

2.3.3 ACTOR RECURRENT CRITIC

  地面目标跟踪的任务是在动态的和部分可观测的环境中执行的,其中的观察结果与状态完全不同。我们在某个时间收到观察和相应的行动,但奖励可能稍后出现,功能说明:
在这里插入图片描述
  DDPG在每个步骤中用检测到的奖励更新值网络,因此值网络可以被视为关于ht的函数。我们已经在方程(3)中知道值函数是一个关于状态的函数,所以我们可以通过历史来模拟状态。递归网络可以综合历史观察结果,可以更好地表示状态。LSTM是一种优秀的递归神经网络,由守门、写门和读门组成,具有强大的控制历史信息参与训练的能力。使用LSTM网络模拟观测历史中的状态,我们的状态如下:
在这里插入图片描述
  其中f(·)由LSTM网络确定,ω表示LSTM的参数。
  在DDPG中有两种网络。演员网络用于调整策略的参数,确定特定状态下的最佳动作。关键性网络用于评估当前操作的值。我们改进了DDPG的框架,并将新结构命名为ARC(演员-反复-批评网络)。ARC网络的主要结构如图4所示。参与者网络和评论家网络由密集网络组成,分别计算连续动作和值函数。LSTM和演员联合在一起组成了政策网络,价值网络由LSTM和评论家组成。策略和值网络共享相同的LSTM结构和参数。该政策的定义为:
在这里插入图片描述
其中,θ表示参与者网络的参数。该值被定义为:
其中,θ表示参与者网络的参数。该值被定义为:
其中,η表示评论家网络的参数。在每个时间步长中,我们都会根据(29)-(32)来更新参数。
在这里插入图片描述

四、实验

  基于TensorFlow2.0 - python进行的仿真实验

4.1 EXPERIMENTAL SETTINGS

  DDPG中有两种网络结构:值和策略,如图5所示。LSTM层用于从历史观测数据中提取特征信息,两个网络共享同一个LSTM并同步更新。
  在我们的环境中,速度设置为V = 3m/s,无人机的行动范围设置为[−π/20, π/20],采样时间间隔为1t = 1s。根据式(18),我们得到法向加速度a0的小范围[−0.47,0.47]m/s2,这使得生成的生成的轨迹更容易跟踪。无人机的观测结果归一化为[0,1],动作信号归一化为[−1,1]。奖励实例化为:λ=1,σ=0.1,k=100,α=0.01。最大历史记录长度设置为5。内存容量设置为4000。批次大小设置为32。采用RMSprop优化器[41]学习了学习速率为10−3的网络参数。折扣系数为γ=0.9,软目标更新率为ε=0.01。勘探噪声设置为Var(−0.2、0.2)。列车集数为n=300,每集的最大步骤为m=500。
在这里插入图片描述
  [图6]ARC的仿真结果。x轴表示剧集数,y轴分别表示每集的步骤、奖励和平均奖励。接近目标或与障碍物碰撞表示某一事件的结束,并且每一事件具有最多的时间步长500。

4.2 仿真和性能分析

  在本小节中,给出了培训过程。我们观察每一集的步骤数和奖励,统计和分析它们从初始到收敛的变化。图6显示了模拟结果,其中(a)表示每一集的训练步骤数。在前40集中,无人机的训练步骤小于100步,这表明终止条件被触发,即。无人机将与障碍物发生碰撞。然后,训练步骤的数量开始增加,爬行到100个,甚至达到500个,这表明无人机学会了如何避免障碍。大约在第70集后,训练步骤的数量开始减少,并最终在100到200步之间保持稳定,这表明无人机学会了更好的策略,可以成功地接近目标。
  DRL的目的是通过持续的学习来提高累积奖励,从而获得最大的累积奖励。因此,奖励越高,传递效果就越好。每一集的累积奖励如图6(b)所示。通过比较,我们发现累积奖励的趋势与分析结果一致。每一集每一步的平均奖励反映了训练过程的效果如图6 ©所示,平均奖励逐渐增加。在大约第100集之后,平均奖励达到最高,并保持稳定。由于探索噪声和随机初始状态,无人机在少量情节中遇到障碍物,导致平均奖励较低。
  为了进一步证明改进方法的可靠性,采用具有相同奖励功能和超参数的传统DDPG进行了比较,结果如图7所示。仿真结果表明,第130集后,训练步骤开始收敛,比改进方法慢。由于探索不足,过去20集有很大的波动,回报大幅下降。结果表明,该方法显著提高了其稳定性和收敛速度。
在这里插入图片描述
  [图7]DDPG的仿真结果。x轴表示剧集数,y轴分别表示每集的步骤、奖励和平均奖励。接近目标或与障碍物碰撞表示某一事件的结束,并且每一事件具有最多的时间步长500。
在这里插入图片描述
  [图8]:模拟的完整环境的一些例子。不同类型环境中的障碍物不同于形状、大小和数字。
  本小节展示了目标的轨迹跟踪和无人机与目标之间的标准化距离的影响。图8显示不同环境下的轨迹,图9显示其相应的标准化跟踪距离。
  环境1显示了在无障碍环境中的静止目标的跟踪结果。首先,无人机迅速接近目标,然后绕目标绕圈,在机动性范围内持续跟踪和观察。环境2显示了在简单障碍物干扰情况下静止目标的跟踪结果。无人机能够成功地避开障碍物,并快速接近目标。
  在最后阶段,无人机也围绕目标飞行。环境3显示了复杂障碍物环境下静止目标的跟踪结果。由于受到障碍物的动态约束和干扰,无人机不能围绕目标飞行。但是我们可以发现,无人机仍然可以在保证自身安全的前提下,通过与目标保持一定的距离来完成连续观测和跟踪的任务
  环境4-6显示了移动目标的跟踪结果。移动速度设置为0.8m/s,低于无人机的速度。因此,无人机有能力在正确的制导下完成跟踪任务。环境4显示了在无障碍环境中的跟踪结果。结果表明,在接近目标后,无人机总是在目标的一定范围内停留,能够稳定地观察和跟踪目标。环境5显示了在具有简单障碍的环境中移动目标的跟踪结果。无人机快速接近目标,并在初始阶段继续跟踪。当遇到障碍物时,经过短暂调整以确保飞行安全后,无人机再次飞向目标并保持跟踪。环境6显示了在具有复杂障碍物的环境中的移动目标的跟踪结果。由于障碍物的密度和飞行能力的限制,无人机无法与目标保持稳定的观测距离,但仍可以在避免障碍物的前提下飞向目标。
  为了进一步证明其有效性和实用性。选择了图10所示的两个环境来重复该实验。目标被设置为静止在中心,无人机的初始状态在每一集是随机的。对于具有稀疏障碍的环境7中的目标跟踪问题,与传统的DDPG算法相比,改进算法的成功率从70.0%提高到91.8%。对于障碍物密集环境8中的目标跟踪问题lem,成功率从13.6%提高到67.5%。
在这里插入图片描述
  [图9]:模拟的完整环境的一些例子。不同类型环境中的障碍物不同于形状、大小和数字。
在这里插入图片描述
  [图10]用于重复该实验的环境。在中心位置有具有固定目标的环境。不同类型环境中的障碍物不同于形状、大小和数字。.

五、总结(回到摘要)

  这篇文章改进了DDPG算法,使其更适合于无人机的目标跟踪。仿真结果表明,训练过程更稳定,收敛速度更快。在验证过程中,我们观察到无人机可以产生目标跟踪的无碰撞轨迹。此外,与传统的DDPG相比,故障率显著降低。
  一些任然可以改进的地方:
  1)状态空间。基于视觉的DRL方法可以直接从摄像机采集的深度图像中提取障碍物信息,但无法检测到目标位置信息。一个解决方案是计算目标的相对位置信息,并与图像融合。然后,可以使用扩展的高级图像信息作为DRL的输入。
  2)奖励功能。奖励函数的设计对DRL的训练效果至关重要。为了得到令人满意的结果,我们比较了10多种奖励函数。更有效的奖励功能定义方法将是后续研究的重点。
  3)与基于规则的方法相结合。虽然基于DRL的目标跟踪方法可以保证收敛性,但它缺乏安全性和实用性。基于规则的路径规划算法通常更稳定和有效。因此,将DRL与基于规则的方法相结合将是一个很有前景的研究方向,它不仅可以处理复杂多变的环境,而且可以提高稳定性和效率。