训练神经网络,控制固定翼飞机的运动,完成着陆过程的飞行。

强化学习算法为DDPG,网络为3层,其中输入层和1、2层均设置BatchNorm,每层64个neural。

仿真平台为Gazebo,模型基于ethz-asl/rotors_simulator,飞机质量、惯量与重心恒定,气动参数与推力均采用二阶多项式近似,For example, 'c_drag_alpha: [n_0, n_1, n_2]' would result in the following calculation: 'drag = n_0 + n_1 * alpha + n_2 * alpha^2'.

通讯框架为ROS,强化学习程序为一个节点,与gazebo通讯为另一节点,二者通过PerformAction服务来进行通讯。

网络输入为飞机与目标之间的相对位置、速度、角度、角速度,共计12个分量,按照理想状态认为无噪声、无延迟。

网络输出为飞机的俯仰角、滚转角和推力值。

reward函数包括距离项与角度项。

视频见原文:

下一步工作:

1.飞机随机生成初始位置与姿态

2.考虑更真实的飞行力学模型、气动模型和发动机模型,网络输出改为舵面偏转和推力指令。

3.考虑随机突风、发动机推力扰动、飞机构型变化(外形变化、重心变化)、传感器噪声、无人机大机动等因素。