强化学习 1 :基本概念

参考资料

[1] 叶强:《强化学习》第一讲 简介

[2] 华师数据学院·王嘉宁:强化学习(一):概述

[3] 张楚珩:【强化学习入门 1】 从零开始认识强化学习

目录

  • 特点
  • 基本术语
  • 工作原理
  • 分类

1 特点

(1) 没有监督数据、只有奖励信号;

(2) 奖励信号不一定是实时的,而很可能是延后的,有时甚至延后很多;

(3) 时间(序列)是一个重要因素;

(4) 当前的行为影响后续接收到的数据。

2 基本术语

  • 强化学习(Reinforcement Learning)
    简写为“RL”。
  • 环境(Environment)
    客观存在的一个约束。
  • 状态(State)
    一个环境拥有若干个状态,每个状态时环境的一个具体表现。[公式]状态集合[公式] 
  • 智能体(Agent)
    强化学习的对象。可以是人、动物,机器人(例如计算机本身),能根据不同的环境状态做出相应的动作。
  • 动作(Action)
    [公式]动作集合[公式] 
  • 策略(Policy)
    记作 [公式] 。在统计学中,表示一个条件概率分布,即在状态 [公式] 的条件下,动作 [公式] 被执行的概率。
  • 状态转移
    衡量基于状态 [公式] 及做出的动作 [公式] 之后,下一个状态是 [公式] 的概率分布。
  • 回报/奖励(Reward)
    当状态转移到新的状态 [公式] 时,环境会回馈智能体上一个动作状态下的奖励 [公式] ,这个奖励即为单步回报。
  • 模型(Model)
    对环境反应模式的模拟。基于模型的强化学习是有模型进行指导的,在某个状态下可根据模型做出相应的动作。
  • 终止状态Terminal State
  • 回合/情节(Episode)
    包括 [公式]  [公式]  [公式]  [公式] 的列表。
  • 回合制任务(Episodic Task)
    有一个起点和一个终点(terminal state),由许多个episode组成。
    所有的奖励会在这个terminal state及其之前结算清。
  • 连续型任务(Continuing Task)
    No terminal state,即原则上它们可以永久地运行下去。
    这类任务的奖励是分散地分布在这个连续的一连串的时刻中。
  • 收益(Return)
    就是总奖励/累积奖励(Cumulative Reward),强化学习的目标就是最大化预期的累积奖励。

    对于Episodic task,收益计算如下:[公式] T表示终止时刻。

    对于Continuing task,收益计算如下:
    [公式][公式] 上式为衰减收益(Discounted Return),其中 γ 表示衰减率/折扣系数(Discount Factor),取值范围是[0~1]。越远的回报占权重越小, γ 趋于0,越近的回报占权重越大, γ 趋于1。
  • 状态价值函数(State Value Funciton)
    记作 [公式],表示当到达某个状态 [公式] 之后,如果接下来一直按策略 [公式] 来行动,能够获得的期望收益。
    [公式]
  • 动作价值函数(Action ValueFunciton)
    记作 [公式] ,表示的是当达到某个状态 [公式] 之后,如果采取行动 [公式],接下来再按照策略[公式]来行动,能获得的期望收益。
    [公式]
  • 探索(Exploration)
    随机选择一个未知的动作。
  • 开发/利用 (Exploitation)
    选择可能累积价值最大的动作。
  • 学习(Learning)& 规划(Planning)
    学习:环境初始时是未知的,个体不知道环境如何工作,个体通过与环境进行交互,逐渐改善其行为策略。
    规划:环境如何工作对于个体是已知或近似已知的,个体并不与环境发生实际的交互,而是利用其构建的模型进行计算,在此基础上改善其行为策略。

    一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。

3 工作原理

强化学习的工作原理

强化学习的目标是希望个体从环境中获得的总奖励最大,即我们的目标不是短期的某一步行动之后获得最大的奖励,而是希望长期地获得更多的奖励。

步骤:

①时间是离散的,在 [公式] 时刻

②环境状态为 [公式]

③智能体在状态 [公式] 下做出决策动作 [公式]

注:做出的决定有两种可能 —— 探索(随机选择一个未知的动作) 和 开发(选择可能累积价值最大的动作)

④执行完动作 [公式] 后,环境状态变为 [公式]

⑤环境给智能体回馈奖励 [公式]

动作价值 [公式] 得到更新

4 分类

  • 按策略分:
    • 同轨策略/同策略(on-policy):用于生成采样数据的策略和用于实际决策的待评估和改进的策略是相同的。例如SARSAε-贪心算法
    • 离轨策略/离策略(off-policy):是不相同的。例如Q-Learning、Expected Sarsa、重要度采样。

本质在于采样的策略(行动策略 Behavior Strategy)和目标训练的策略(目标策略 Target Strategy)是否一致。

  • 按学习目标分:
    • 基于价值(Value Based)
      目标是优化值函数 [公式]
      一般来说,基于表格型的强化学习是离散的,通常以一个邻接矩阵来存储每个状态当前的价值。我们目标则是处于某一个状态时,我们希望依靠经验来判断做出什么决策能够最大可能的获得到最高收益。
    • 基于策略(Policy Based)
      我们希望不使用值函数,直接优化策略函数[公式]
      例如策略梯度、基于函数逼近的强化学习等,其解决的是连续问题,例如状态转移是连续型函数

(待完善)