上一期笔记,忘记的童鞋可以复习一下: 王源:【强化学习与最优控制】笔记(九)值函数,Q函数和策略空间的近似 本笔记对应教材中第4章4.1-4.3的内容。 从本章开始我们研究的问题从有限时间到无限时间问题。 1 Overview 无限时间问题(Infinite horizon)和有限时间问题(finite horizon)主要的区别有2点: 1 无限时间问题考虑的是 无穷多 stage 的问题
上一期笔记,忘记的童鞋可以复习一下: 王源:【强化学习与最优控制】笔记(八) 模型预测控制(Model Predictive Control) 本笔记对应教材中第3章的内容。教材中第三章的内容主要是讲 如何采用线性回归或者是神经网络等经典的机器学习模型来学习 Value function (值函数),Q function (Q 函数) 和 Policy function。这块内容本质上属于机
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(七) Rollout 与 Policy Improvement 本笔记对应教材中2.5节的内容。 1 模型预测控制的动机(Model Predictive Control) 一句话来概括 Model Predictive Control 就是 Rollout 算法的一种特殊情况,它也是 最优控制 (Optimal Co
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(六) 强化学习中的Decomposition 1 Rollout Rollout 算法的基本思想就是 在未来有限的k步之内采用直接优化的方法(lookahead minimization),而在k步之外采用 base policy 对 Value function 来进行近似。其基本思想如下图所示: Rollout 的精妙
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(四)强化学习与最优控制的关联与对比 本笔记对应教材中2.1-2.2节的内容,由于原书中2.1-2.2的内容稍显混乱,我的笔记对这两小节的内容进行了重新梳理,顺序可能会和原书有点变化。 前四期的回顾,没有看或者有点忘记的童鞋可以复习一下: 王源:【强化学习与最优控制】笔记(一)确定性问题的动态规划 王源:【强化学习与最优
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(三)动态规划求解实际问题举例 大家如果留心看强化学习的书或者文献的话会发现有两大类不同的名词,有的时候叫Controller,有的时候叫Agent,有的时候叫Cost,有的时候叫Reward,有的时候叫Control Variable,有的时候叫Action,有的时候叫System Dynamic,有的时候叫Envir
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(二)随机性问题的动态规划 本笔记对应教材中1.3节的内容,这一章所有的例子都围绕前面二节所讲的动态规划算法的核心公式: 前两期的回顾,没有看或者忘记的童鞋可以复习一下: 王源:【强化学习与最优控制】笔记(一)确定性问题的动态规划 王源:【强化学习与最优控制】笔记(二)随机性问题的动态规划 1 最短路问题 最短路问
上一期的笔记是确定性问题的动态规划,忘记的小伙伴可以再复习一下: 王源:【强化学习与最优控制】笔记(一)确定性问题的动态规划 0 写在前面的 上周我更新了第一篇关于强化学习与最优控制的笔记,整体反响还不错。我打算大约一周更新一篇文章。不得不说这本教材写得还真是蛮好的,推荐大家购买纸质版的(这个是影印版的,比英文原本要便宜不少),因为电子版的内容不是非常完整。 1 离散时间动态系统(随机性问题
0 写在前面的 最近在学动态规划和强化学习,主要采用的教材是这本书,Bertsekas D P. Reinforcement learning and optimal control[M]. Belmont, MA: Athena Scientific, 2019. 这本书是最新出的目前网上能找到的只有一个草稿版本(没有电子版教材的可在评论区留言),纸质版在京东有卖的,建议大家将笔记和教材结
上一期笔记,忘记的小伙伴可以复习一下: 王源:【强化学习与最优控制】笔记(五) 强化学习中值空间近似与策略空间近似概述 本笔记对应教材中2.3节的内容。 上一期的回顾:王源:【强化学习与最优控制】笔记(五) 强化学习中值空间近似与策略空间近似概述 上一期我们笼统的讲了强化学习中值空间近似与策略空间近似。本次我们集中讲解 值空间近似中一种常用的思路 就是 Problem approximati
积分
粉丝
勋章
TA还没有专栏噢
第三方账号登入
看不清?点击更换
第三方账号登入
QQ 微博 微信