表格法求解强化学习
强化学习MDP四元组<S,A,P,R>
s:state 状态
a:action 动作
r:reward 奖励
p:probability 状态转移概率

MDP全称马尔可夫决策过程,即系统的下个状态只与当前状态信息有关,而与更早之前的状态无关,这叫做马尔可夫性质。

如何描述环境
P函数:

如果P函数和R函数都确定了,那么可以说该环境是已知的了,就可以使用动态规划的方法去计算概率最大的最优策略是什么。

  • 当P函数与R函数都已知的时候,称为Model-based
  • 当P函数与R函数都未知的时候,称为Model-free

强化学习就是用来解决这种完全未知的随机环境。

Q表格

状态动作价值,根据尝试的经验修改Q表格参数。Q表格的物理意义就是选择这个动作我最后能不能成功,选择这个动作后续一共能拿到多少总收益,如果未来总收益越大就往这个方向选择动作。

衰减因子
Q表格的目标导向是未来的总收益最大,总收益是每一步的收益和,当面对无穷的问题时,考虑未来所有的收益和显然不合理,因此加入衰减因子,给未来的收益乘上时间相关的系数,减小未来非常遥远的收银对当前收益的影响。

未加衰减因子:
在这里插入图片描述

加入衰减因子:

在这里插入图片描述

Q表格样式,列为动作,行为状态:

在这里插入图片描述

时序差分的更新方法

在这里插入图片描述

首先根据带衰减因子的收益和公式有:

在这里插入图片描述

根据上式我们发现t时刻的收益和t+1时刻的收益存在关系:

Gt = Rt+1 + yGt+1

那么采用软更新的方式来更新t时刻的Q就可以有如下式子:

Qt <—— Qt + a[Qt+1 - Qt]

当用Gt来逼近Qt后就有:

Qt <—— Qt + a[Rt+1 + yGt+1 - Qt]