强化学习（二）马尔科夫决策过程(MDP)

刘建平Pinard

发布时间 2022.03.23阅读数 4164 评论数 0

在强化学习（一）模型基础中，我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前，模型的简化也很重要，这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process，以下简称MDP)来简化强化学习的建模。

　　　　MDP这一篇对应Sutton书的第三章和UCL强化学习课程的第二讲。

1. 强化学习引入MDP的原因

　强化学习的8个要素我们在第一节已经讲了。其中的第七个是环境的状态转化模型，它可以表示为一个概率模型，即在状态 $s$ $s$

$s$ 有关,还与上上个状态，以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂，复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化。简化的方法就是假设状态转化的马尔科夫性，也就是假设转化到下一个状态 $s^{'}$ $s^{'}$

$s^{'}$

$s$

　　　　除了对于环境的状态转化模型这个因素做马尔科夫假设外，我们还对强化学习第四个要素个体的策略(policy) $π$ 也做了马尔科夫假设。即在状态s时采取动作a的概率仅与当前状态s有关，与其他的要素无关。用公式表示就是

对于第五个要素，价值函数 $v_{π} (s)$ 也是一样, $v_{π} (s)$ 现在仅仅依赖于当前状态了，那么现在价值函数 $v_{π} (s)$ 表示为:

vπ(s)=Eπ(Gt|St=s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s)

其中， $G_{t}$ 代表收获（return), 是一个MDP中从某一个状态 $S_{t}$ 开始采样直到终止状态时所有奖励的有衰减的之和。

2. MDP的价值函数与贝尔曼方程

对于MDP，我们在第一节里已经讲到了它的价值函数 $v_{π} (s)$ 的表达式。但是这个表达式没有考虑到所采用的动作 $a$ 带来的价值影响，因此我们除了 $v_{π} (s)$ 这个状态价值函数外，还有一个动作价值函数 $q_{π} (s, a)$ ，即：

qπ(s,a)=Eπ(Gt|St=s,At=a)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s,At=a)

根据价值函数的表达式，我们可以推导出价值函数基于状态的递推关系，比如对于状态价值函数 $v_{π} (s)$ ，可以发现：

3. 状态价值函数与动作价值函数的递推关系

4. 最优价值函数

解决强化学习问题意味着要寻找一个最优的策略让个体在与环境交互过程中获得始终比其它策略都要多的收获，这个最优策略我们可以用 $π^{*}$ 表示。一旦找到这个最优策略 $π^{*}$ ，那么我们就解决了这个强化学习问题。一般来说，比较难去找到一个最优策略，但是可以通过比较若干不同策略的优劣来确定一个较好的策略，也就是局部最优解。

　　　　如何比较策略的优劣呢？一般是通过对应的价值函数来比较的，也就是说，寻找较优策略可以通过寻找较优的价值函数来完成。可以定义最优状态价值函数是所有策略下产生的众多状态价值函数中的最大者，即：

5. MDP实例

上面的公式有点多，需要一些时间慢慢消化，这里给出一个UCL讲义上实际的例子，首先看看具体我们如何利用给定策略来计算价值函数。

例子是一个学生学习考试的MDP。里面左下那个圆圈位置是起点，方框那个位置是终点。上面的动作有study, pub, facebook, quit, sleep，每个状态动作对应的即时奖励R已经标出来了。我们的目标是找到最优的动作价值函数或者状态价值函数，进而找出最优的策略。

　　　　为了方便，我们假设衰减因子 $γ = 1, π (a | s) = 0.5$ 。

6. MDP小结

MDP是强化学习入门的关键一步，如果这部分研究的比较清楚，后面的学习就会容易很多。因此值得多些时间在这里。虽然MDP可以直接用方程组来直接求解简单的问题，但是更复杂的问题却没有办法求解，因此我们还需要寻找其他有效的求解强化学习的方法。

　　　　下一篇讨论用动态规划的方法来求解强化学习的问题。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

强化学习学习笔记马尔科夫决策

打赏 0

上一篇：强化学习（一）模型基础

下一篇：强化学习（三）用动态规划（DP）求解

强化学习（二）马尔科夫决策过程(MDP)

刘建平Pinard

1. 强化学习引入MDP的原因

2. MDP的价值函数与贝尔曼方程

3. 状态价值函数与动作价值函数的递推关系

4. 最优价值函数

5. MDP实例

6. MDP小结

为你推荐

人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测

Paddleocr文本识别数据集的合成与制作----超级详细

【TensorFlow学习笔记：神经网络优化(6讲)】

Pytorch实现经典卷积神经网络LeNet

Paper 5. Deep Reinforcement Learning framework for Autonomous Driving

机器学习之超参数优化 - 网格优化方法（随机网格搜索）

关于作者

刘建平Pinard

57

0

50

4

scikit-learn K近邻法类库使用小结

强化学习（六）时序差分在线控制算法SARSA

支持向量机原理(四)SMO算法原理

相关推荐

【初学人工智能原理】【2】方差代价函数：知错

DiffDock源码解析

生成模型之VAE

深度神经网络（DNN）损失函数和激活函数的选择

精选Machine Learning-L5-回归分析

交叉验证之KFold和StratifiedKFold的使用（附案例实战）

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

强化学习（二）马尔科夫决策过程(MDP)

刘建平Pinard

1. 强化学习引入MDP的原因

2. MDP的价值函数与贝尔曼方程

3. 状态价值函数与动作价值函数的递推关系

4. 最优价值函数

5. MDP实例

6. MDP小结

为你推荐

人脸检测实战高级：使用 OpenCV、Python 和 dlib 完成眨眼检测

Paddleocr文本识别数据集的合成与制作----超级详细

【TensorFlow学习笔记：神经网络优化(6讲)】

Pytorch实现经典卷积神经网络LeNet

Paper 5. Deep Reinforcement Learning framework for Autonomous Driving

机器学习之超参数优化 - 网格优化方法（随机网格搜索）

评论（0）

关于作者

刘建平Pinard

57

0

50

4

scikit-learn K近邻法类库使用小结

强化学习（六）时序差分在线控制算法SARSA

支持向量机原理(四)SMO算法原理

相关推荐

【初学人工智能原理】【2】方差代价函数：知错

DiffDock源码解析

生成模型之VAE

深度神经网络（DNN）损失函数和激活函数的选择

精选Machine Learning-L5-回归分析

交叉验证之KFold和StratifiedKFold的使用（附案例实战）

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板