MATLAB强化学习工具箱(二)-在MDP环境中训练Q learning

柯南404

分类：机器学习

发布时间 2021.04.03阅读数 4550 评论数 0

在MDP环境中训练Q learning

创建MDP智能体环境
创建Q learning智能体
训练Q learning智能体
验证Q learning结果

此示例显示了如何训练Q学习智能体来解决通用的马尔可夫决策过程（MDP）环境。

在这里插入图片描述

这里：

每个圆圈代表一个状态。

在每个状态都有一个决定涨跌的决定。

智能体从状态1开始。

智能体收到等于图表中每个过渡值的奖励。

训练目标是收集最大的累积奖励。

创建MDP智能体环境

创建具有八个状态和两个动作的（“上”和“下”）的MDP模型

MDP = createMDP(8,["up";"down"]);

要从上图建模过渡，请修改MDP的状态过渡矩阵和奖励矩阵。默认情况下，这些矩阵包含零。

指定MDP的状态转换和奖励矩阵。例如，在以下命令中：

1.前两行通过采取操作1（“向上”）指定从状态1到状态2的过渡，并为此过渡提供+3的奖励。

2.接下来的两行通过采取行动2（“按下”）并指定+1的奖励来指定从状态1到状态3的过渡。

MDP.T(1,2,1) = 1;
MDP.R(1,2,1) = 3;
MDP.T(1,3,2) = 1;
MDP.R(1,3,2) = 1;

同样，为图中的其余规则指定状态转换和奖励。

% State 2 transition and reward
MDP.T(2,4,1) = 1;
MDP.R(2,4,1) = 2;
MDP.T(2,5,2) = 1;
MDP.R(2,5,2) = 1;
% State 3 transition and reward
MDP.T(3,5,1) = 1;
MDP.R(3,5,1) = 2;
MDP.T(3,6,2) = 1;
MDP.R(3,6,2) = 4;
% State 4 transition and reward
MDP.T(4,7,1) = 1;
MDP.R(4,7,1) = 3;
MDP.T(4,8,2) = 1;
MDP.R(4,8,2) = 2;
% State 5 transition and reward
MDP.T(5,7,1) = 1;
MDP.R(5,7,1) = 1;
MDP.T(5,8,2) = 1;
MDP.R(5,8,2) = 9;
% State 6 transition and reward
MDP.T(6,7,1) = 1;
MDP.R(6,7,1) = 5;
MDP.T(6,8,2) = 1;
MDP.R(6,8,2) = 1;
% State 7 transition and reward
MDP.T(7,7,1) = 1;
MDP.R(7,7,1) = 0;
MDP.T(7,7,2) = 1;
MDP.R(7,7,2) = 0;
% State 8 transition and reward
MDP.T(8,8,1) = 1;
MDP.R(8,8,1) = 0;
MDP.T(8,8,2) = 1;
MDP.R(8,8,2) = 0;

指定状态"s7"并"s8"作为MDP的终端状态。

MDP.TerminalStates = ["s7";"s8"];

为此流程模型创建强化学习MDP环境。

env = rlMDPEnv(MDP);

要指定智能体的初始状态始终为状态1，请指定一个返回初始智能体状态的重置功能。每次训练和模拟开始时都会调用此功能。创建一个将初始状态设置为1的匿名函数句柄。

env.ResetFcn = @() 1;

修复随机生成器种子以提高可重复性。

rng(0)

创建Q learning智能体

要创建Q learning智能体，请首先使用MDP环境中的观察和操作规范创建Q表。将表示的学习率设置为1。

obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);
qTable = rlTable(obsInfo, actInfo);
qRepresentation = rlQValueRepresentation(qTable, obsInfo, actInfo);
qRepresentation.Options.LearnRate = 1;

接下来，使用此表表示形式创建Q学习代理，配置epsilon-greedy探索。

agentOpts = rlQAgentOptions;
agentOpts.DiscountFactor = 1;
agentOpts.EpsilonGreedyExploration.Epsilon = 0.9;
agentOpts.EpsilonGreedyExploration.EpsilonDecay = 0.01;
qAgent = rlQAgent(qRepresentation,agentOpts);

训练Q learning智能体

要训练智能体，请首先指定训练选项。对于此示例，使用以下选项：

训练最多200次，每个剧集最多持续50个时间步。

当智能体在30个连续情节中获得的平均累积奖励大于10时，请停止训练。

trainOpts = rlTrainingOptions;
trainOpts.MaxStepsPerEpisode = 50;
trainOpts.MaxEpisodes = 200;
trainOpts.StopTrainingCriteria = "AverageReward";
trainOpts.StopTrainingValue = 13;
trainOpts.ScoreAveragingWindowLength = 30;

使用train功能训练代理。这可能需要几分钟才能完成。为了节省运行本示例的时间，请通过将设置doTraining为来加载预训练的智能体false。要自己训练智能体，请设置

doTraining为true。

doTraining = false;

if doTraining
    % Train the agent.
    trainingStats = train(qAgent,env,trainOpts);
else
    % Load pretrained agent for the example.
    load('genericMDPQAgent.mat','qAgent');
end

在这里插入图片描述

验证Q learning结果

要验证训练结果，请使用该sim功能在训练环境中模拟座席。智能体成功找到导致累积奖励的最佳路径13。

Data = sim(qAgent,env);
cumulativeReward = sum(Data.Reward)

累积奖励= 13

由于折扣因子设置为1，受过训练的智能体的Q表中的值与环境的未折现收益匹配。

QTable = getLearnableParameters(getCritic(qAgent));
QTable{1}

在这里插入图片描述

TrueTableValues = [13,12;5,10;11,9;3,2;1,9;5,1;0,0;0,0]

在这里插入图片描述

打赏 0

上一篇：[强化学习实战]actor-critic方法（一）—同策方法

下一篇：[强化学习实战]马尔可夫决策-悬崖寻路python实现

MATLAB强化学习工具箱(二)-在MDP环境中训练Q learning

柯南404

在MDP环境中训练Q learning

创建MDP智能体环境

创建Q learning智能体

训练Q learning智能体

验证Q learning结果

为你推荐

YOLO系列之YOLO-Lite：实时运行在CPU上的目标检测算法

精选COLMAP多视角视图数据可视化

使用鸢尾花数据集实现一元逻辑回归、多分类问题

深入理解深度学习——Word Embedding（三）：Skip-Gram模型

精选（五）近端策略优化

自动驾驶之轨迹规划7——A Real-Time Motion Planner with Trajectory Optimization for Autonomous Vehicles文献阅读

关于作者

柯南404

25

0

1

3

强化学习实战-训练PPO智能体完成自动泊车

MATLAB强化学习工具箱（十四）导入策略和值函数表示

[强化学习实战]函数近似方法-线性近似与函数近似的收敛性

相关推荐

YOLOV5 代码复现以及搭载服务器运行

Tensorflow学习实战之单变量线性预测

Tensorflow学习实战之卷积神经网络CIFA10训练

AugGAN：基于GAN的图像数据增强

强化学习 6：基于无模型——时序差分法（Temporal Difference,TD）

机器学习笔记-初学集成模型与随机森林

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

MATLAB强化学习工具箱(二)-在MDP环境中训练Q learning

柯南404

在MDP环境中训练Q learning

创建MDP智能体环境

创建Q learning智能体

训练Q learning智能体

验证Q learning结果

为你推荐

YOLO系列之YOLO-Lite：实时运行在CPU上的目标检测算法

精选COLMAP多视角视图数据可视化

使用鸢尾花数据集实现一元逻辑回归、多分类问题

深入理解深度学习——Word Embedding（三）：Skip-Gram模型

精选（五）近端策略优化

自动驾驶之轨迹规划7——A Real-Time Motion Planner with Trajectory Optimization for Autonomous Vehicles文献阅读

评论（0）

关于作者

柯南404

25

0

1

3

强化学习实战-训练PPO智能体完成自动泊车

MATLAB强化学习工具箱（十四）导入策略和值函数表示

[强化学习实战]函数近似方法-线性近似与函数近似的收敛性

相关推荐

YOLOV5 代码复现以及搭载服务器运行

Tensorflow学习实战之单变量线性预测

Tensorflow学习实战之卷积神经网络CIFA10训练

AugGAN：基于GAN的图像数据增强

强化学习 6：基于无模型——时序差分法（Temporal Difference,TD）

机器学习笔记-初学集成模型与随机森林

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板