什么是强化学习

目前,机器学习分为四类:

  • 监督学习。
  • 无监督学习。
  • 半监督学习。
  • 强化学习

强化学习即为其中的一种。强化学习和监督学习的区别在于:

  • 强化学习的样本通过与环境进行交互产生,即试错学习,而监督学习的样本由人工收集并标注。
  • 强化学习的反馈信息只有奖励,并且是延迟的;而监督学习需要明确的指导信息(每一个状态对应的动作)。

现代强化学习可以追溯到两个来源:

  • 一个是心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为;
  • 另一个是控制论领域的最优控制问题,即在满足一定约束条件下,寻求最优控制策略,使得性能指标取极大值或极小值。

强化学习的算法分为以下几类:

![[nndl-book.pdf#page=365&rect=42,147,354,325&color=annotate nndl-book, p.350]]

强化学习中的概念与表示

强化学习符号表

  • 状态:ss,状态空间:S\mathcal{S}
  • 轨迹:τ\tau
  • 动作:aa,动作空间:A\mathcal{A}
  • 回报:rr
  • 策略:π\pi
  • 折扣率:γt\gamma^t
  • 总回报:
    • 一条轨迹的总回报:G(τ)G(\tau)
  • 状态值函数:Vπ(s)V^\pi(s)
  • 状态动作值函数:Qπ(s,a)Q^\pi(s,a)
  • 当前对于值函数的估计:Q^π(s,a)\hat{Q}^\pi(s,a)
  • NN 次实验后的值函数:Q^Nπ(s,a)\hat{Q}_N^\pi(s,a)

强化学习算法分类

从数据采集(数据来源)上来说:

  • 在线算法(Online)
  • 离线算法(Offline)

从采样策略和目标策略来说:

  • 同策略(On Policy)
  • 异策略(Off Policy)
模型(这里指 MDP 模型,主要是状态转移概率 $p(s^{\prime} s, a)和奖励 和奖励 r(s,a,s^{\prime})$)是否已知?
  • 基于模型的强化学习(Model-Based Reinforcement Learning)
  • 模型未知,基于采样:模型无关的强化学习(Model-Free Reinforcement Learning)

从学习方式来说:

  • 基于值函数的
  • 基于策略函数
  • 演员评论员
算法 基于模型/模型无关 在线/离线 同策略/异策略 学习方式
动态规划 基于模型 无(不需要数据采集) 无(无采样策略) 基于值函数
蒙特卡洛 模型无关 在线 都可以 基于值函数
SARSA 模型无关 在线 同策略 基于值函数
Q 学习 模型无关 在线 异策略 基于值函数

在线(Online)与离线(Offline)强化学习算法

在线:算法在训练过程中,会持续与环境交互,根据交互得到的新数据立即或持续地更新模型。这是一个 “探索 - 学习” 的循环。

离线:算法在训练过程中,不会与环境进行任何交互。它仅仅利用一个事先收集好的、固定的静态数据集来训练模型。训练完成后,再部署应用。这是一个 “学习 - 应用” 的过程。

同策略(On Policy)与异策略(Off Policy)强化学习算法

同策略(On Policy)与异策略(Off Policy)只用于形容通过采样进行学习的算法,如蒙特卡洛算法(通过大量的对于完整轨迹的采样对值函数进行正确预估)、时序差分学习算法(SARSASARSAQQ 学习算法都是采样一步,更新一步,不需要提前得知一次采样的完整轨迹)。由于在动态规划算法算法中,模型已知不需要进行采样,策略的预估不需要进行迭代更新,所以同策略与异策略不能用于形容动态规划算法。

首先需要定义两个策略:

  • 行为策略(Behavior Policy):即智能体用来采取行动(Action)、与环境交互并产生数据的策略。它决定了“如何探索”,这个策略的目的是获取轨迹信息,也就是获取学习数据
  • 目标策略(Target Policy):即我们真正想要学习、最终用于决策的优化策略。它通常是“如何利用”的策略,这个策略是我们要优化的策略,最终会使用这个策略来部署

同策略

如果采样策略是 πϵ(s)\pi^{\epsilon}(s),通过采样得到的数据不断改进的策略也是 πϵ(s)\pi^{\epsilon}(s),而不是目标策略 π(s)\pi(s),这种采样与改进策略相同的强化学习方法叫做同策略(On Policy)方法。

同策略算是是可以自我迭代的,一边收集数据,一边改进自身。

时序差分学习中的 SARSASARSA 算法即为一种同策略的学习算法。

异策略

如果采样策略是 πϵ(s)\pi^{\epsilon}(s),而优化目标策略是策略 π\pi,可以通过重要性采样,引入重要性权重来实现对于目标策略 π\pi 的优化。这种采样与改进分别使用不同策略的强化学习方法叫做异策略(Off Policy)方法。

时序差分学习中的 QQ 学习算法即为一种异策略的学习算法。

更加泛化的强化学习

部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔可夫决策过程的泛化。POMDP 依然具有马尔可夫性,但是假设智能体无法感知环境的状态 ss,只能知道部分观测值 oo。比如在自动驾驶中,智能体只能感知传感器采集的有限的环境信息。

逆向强化学习

逆向强化学习(Inverse Reinforcement Learning, IRL)就是指一个不带奖励的马尔可夫决策过程,通过给定的一组专家(或教师)的行为轨迹示例来逆向估计出奖励函数 r(s,a,s)r\left(s, a, s^{\prime}\right) 来解释专家的行为,然后再进行强化学习。

分层强化学习

分层强化学习(Hierarchical Reinforcement Learning, HRL)是指将一个复杂的强化学习问题分解成多个小的、简单的子问题,每个子问题都可以单独用马尔可夫决策过程来建模。这样,我们可以将智能体的策略分为高层次策略和低层次策略,高层次策略根据当前状态决定如何执行低层次策略。 这样,智能体就可以解决一些非常复杂的任务。