强化学习的基础模型就是马尔可夫决策过程(MDP),大部分强化学习问题都可以被转化为MDP问题。
参考资料
[1] gwave:马尔可夫决策过程MDP -- 强化学习基础(1)
[4] 华师数据学院·王嘉宁:强化学习(三):有限马尔可夫决策与贝尔曼方程
目录
- 马尔可夫性质
- 马尔可夫链/马尔可夫过程
- 马尔可夫回报过程
- 马尔可夫决策过程
- 贝尔曼方程
1 马尔可夫性质(Markov property)
一个随机过程的未来状态的条件概率分布仅依赖于当前状态,与过去状态是条件独立的,那么此随机过程即具有马尔可夫性质。
2 马尔可夫链(Markov Chain, MC)/马尔可夫过程(Markov Process)
马尔可夫链的概念比较宽泛,有时候会认为它包括连续时间马尔可夫链(Continuous-Time MC, CTMC) ,与离散时间马尔可夫链(Discrete-Time MC, DTMC)。
但有时候认为它是具有马尔可夫性质且存在于离散的指数集和状态空间内的随机过程,而认为马尔可夫过程为适用于连续指数集的马尔可夫链。
不过对于马尔可夫链和马尔可夫过程的概念不用过于区分,视作一样的含义即可。
用元组 表示,其中
是有限数量的状态集,
是状态转移概率矩阵(n×n阶)。所谓状态转移矩阵就是描述了一个状态到另一个状态发生的概率,所以矩阵每一行元素之和为1。
3 马尔可夫回报过程(Markov Reward Process, MRP)
MRP就是带有价值的马尔可夫链,以元组 表示,其中
是回报、
是衰减率。
4 马尔可夫决策过程(Markov Decision Process, MDP)
以元组 表示,其中
是状态
下的有限数量的动作集。
表示在状态s下执行动作a后转移到状态
的概率。
表示在状态s下执行动作a后转移到状态
时取得的即时回报。
5 贝尔曼方程(Bellman Equation)
5.1 状态价值函数的贝尔曼方程
第一行表示的是价值函数的定义;
第二行可知,状态价值就是在当前状态所有可能采取的动作
得到的动作价值的期望;
第三行则表示当前状态的价值
与下一个状态
的价值
之间的递归关系。
图解:

从顶端状态开始,有 概率选择其下的两个动作(黑点),又有
概率转移到下一个状态
,并获得回报
,
则代表新状态
的回报。
5.2 动作价值函数的贝尔曼方程
第一行表示动作价值的定义;
第二行指当前动作价值是经过状态转移之后得到局部收益和所处新的状态的状态价值折扣后和的期望,换句话说是描述状态动作二元组
的价值与下一时刻
的价值之间的关系;
第三行则表示相邻两个时刻动作价值的递推关系式。

6 贝尔曼最优方程(Bellman Optimality Equation)
对于任意一个MDPs,总是存在一个最优的策略,此时
【从所有策略产生的状态价值函数中,选取使状态s价值最大的函数】,
【从所有策略产生的行为价值函数中,选取使状态行为对
价值最大的函数】,贝尔曼最优方程如下:
(待完善)
评论(0)
您还未登录,请登录后发表或查看评论