至此,我们对于状态价值函数和动作价值函数的表示都是针对不同的状态分别储存一个数值,并且把它们当做不同的情形来更新的。这些价值函数需要一张表格来存储(Tabular Solution Method),获取某一状态或动作价值的时候通常需要一个查表操作(Table Lookup)。 这样导致了一些问题: 对于那些状态空间或行为空间很大的问题几乎无法求解,造成“维度灾难”。 在很多情形下,状态可能是连
参考资料 [1]时雨:强化学习6:时序差分方法 [2]华师数据学院·王嘉宁:强化学习(六):时序差分方法 [3]张楚珩:【强化学习入门 2】强化学习策略迭代类方法 [4]叶强:《强化学习》第五讲 不基于模型的控制 目录 概念与特点 TD误差 TD策略评估【预测】 TD(0) TD(λ) TD策略提升【控制】 基于on-policy的TD策略提升 Sarsa Sarsa(λ) 基
如何从理论上解决一个已知的MDP:通过动态规划来评估一个给定的策略,并且得到最优价值函数,根据最优价值函数来确定最优策略;也可以直接进行不基于任何策略的状态价值迭代得到最优价值函数和最优策略。 那么解决一个可以被认为是MDP、但却不掌握MDP具体细节的问题,也就是如何直接从Agent与环境的交互来得到一个估计的最优价值函数和最优策略? 这部分内容分为两部分: 第一部分聚焦于策略评估,也就是预测
参考资料 [1] 做大饼馅儿的韭菜:经典算法思想5——贪心(greedy algorithm) [2] StanleyFoo:强化学习初探 - 从多臂老虎机问题说起 [3] 周志华:《机器学习》 [4] 搬砖的旺财:《RL——An Introduction》第二章笔记——多臂赌博机问题 [5] 华师数据学院·王嘉宁:强化学习(二):贪心策略(ε-greedy & UCB) [6] xyk
基于动态规划的强化学习是一种【基于模型的强化学习方法】,也就是在已知模型的基础上判断一个策略的价值函数,并在此基础上寻找到最优的策略和最优价值函数,或者直接寻找最优策略和最优价值函数。 当问题具有下列特性时,通常可以考虑使用动态规划来求解: ① 最优子结构性质:一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解; ②重叠子问题性质:子问题在复杂问题内重
强化学习的基础模型就是马尔可夫决策过程(MDP),大部分强化学习问题都可以被转化为MDP问题。 参考资料 [1] gwave:马尔可夫决策过程MDP -- 强化学习基础(1) [2] 叶强:《强化学习》第二讲 马尔科夫决策过程 [3] 张楚珩:【强化学习入门 1】 从零开始认识强化学习 [4] 华师数据学院·王嘉宁:强化学习(三):有限马尔可夫决策与贝尔曼方程 [5] 野风同学:强化学习——马尔
参考资料 [1] 叶强:《强化学习》第一讲 简介 [2] 华师数据学院·王嘉宁:强化学习(一):概述 [3] 张楚珩:【强化学习入门 1】 从零开始认识强化学习 目录 特点 基本术语 工作原理 分类 1 特点 (1) 没有监督数据、只有奖励信号; (2) 奖励信号不一定是实时的,而很可能是延后的,有时甚至延后很多; (3) 时间(序列)是一个重要因素; (4) 当前的行为影响后续接收到的数据
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信