什么是强化学习

目前，机器学习分为四类：

监督学习。
无监督学习。
半监督学习。
强化学习。

强化学习即为其中的一种。强化学习和监督学习的区别在于：

强化学习的样本通过与环境进行交互产生，即试错学习，而监督学习的样本由人工收集并标注。
强化学习的反馈信息只有奖励，并且是延迟的；而监督学习需要明确的指导信息（每一个状态对应的动作）。

现代强化学习可以追溯到两个来源：

一个是心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为；
另一个是控制论领域的最优控制问题，即在满足一定约束条件下，寻求最优控制策略，使得性能指标取极大值或极小值。

强化学习的算法分为以下几类：

![[nndl-book.pdf#page=365&rect=42,147,354,325&color=annotate

nndl-book, p.350]]

强化学习中的概念与表示

强化学习符号表：

状态： $s$ ，状态空间： $\mathcal{S}$
轨迹： $\tau$
动作： $a$ ，动作空间： $\mathcal{A}$
回报： $r$
策略： $\pi$
折扣率： $\gamma^t$
总回报：
- 一条轨迹的总回报： $G(\tau)$
基于策略算法的目标函数 $\mathcal{J}(\theta)$ ，一般定义为总回报的期望。
状态值函数： $V^\pi(s)$
状态动作值函数： $Q^\pi(s,a)$
当前对于值函数的估计： $\hat{Q}^\pi(s,a)$
$N$ 次实验后的值函数： $\hat{Q}_N^\pi(s,a)$
策略参数 $\theta$

强化学习算法分类

从数据采集（数据来源）上来说：

在线算法（Online）
离线算法（Offline）

从采样策略和目标策略来说：

同策略（On Policy）
异策略（Off Policy）

模型（这里指 MDP 模型，主要是状态转移概率 $p(s^{\prime}

s, a)

和奖励

r(s,a,s^{\prime})$）是否已知？

基于模型的强化学习（Model-Based Reinforcement Learning）
模型未知，基于采样：模型无关的强化学习（Model-Free Reinforcement Learning）

从学习方式来说：

基于值函数的
基于策略函数
演员评论员

算法	基于模型/模型无关	在线/离线	同策略/异策略	学习方式
动态规划	基于模型	无（不需要数据采集）	无（无采样策略）	基于值函数
蒙特卡洛	模型无关	在线	都可以	基于值函数
SARSA	模型无关	在线	同策略	基于值函数
Q 学习	模型无关	在线	异策略	基于值函数

在线（Online）与离线（Offline）强化学习算法

在线：算法在训练过程中，会持续与环境交互，根据交互得到的新数据立即或持续地更新模型。这是一个 “探索 - 学习” 的循环。

离线：算法在训练过程中，不会与环境进行任何交互。它仅仅利用一个事先收集好的、固定的静态数据集来训练模型。训练完成后，再部署应用。这是一个 “学习 - 应用” 的过程。

同策略（On Policy）与异策略（Off Policy）强化学习算法

同策略（On Policy）与异策略（Off Policy）只用于形容通过采样进行学习的算法，如蒙特卡洛算法（通过大量的对于完整轨迹的采样对值函数进行正确预估）、时序差分学习算法（ $SARSA$ 和 $Q$ 学习算法都是采样一步，更新一步，不需要提前得知一次采样的完整轨迹）。由于在动态规划算法算法中，模型已知不需要进行采样，策略的预估不需要进行迭代更新，所以同策略与异策略不能用于形容动态规划算法。

首先需要定义两个策略：

行为策略（Behavior Policy）：即智能体用来采取行动（Action）、与环境交互并产生数据的策略。它决定了“如何探索”，这个策略的目的是获取轨迹信息，也就是获取学习数据。
目标策略（Target Policy）：即我们真正想要学习、最终用于决策的优化策略。它通常是“如何利用”的策略，这个策略是我们要优化的策略，最终会使用这个策略来部署。

同策略

如果采样策略是 $\pi^{\epsilon}(s)$ ，通过采样得到的数据不断改进的策略也是 $\pi^{\epsilon}(s)$ ，而不是目标策略 $\pi(s)$ ，这种采样与改进策略相同的强化学习方法叫做同策略（On Policy）方法。

同策略算是是可以自我迭代的，一边收集数据，一边改进自身。

时序差分学习中的 $SARSA$ 算法即为一种同策略的学习算法。

异策略

如果采样策略是 $\pi^{\epsilon}(s)$ ，而优化目标策略是策略 $\pi$ ，可以通过重要性采样，引入重要性权重来实现对于目标策略 $\pi$ 的优化。这种采样与改进分别使用不同策略的强化学习方法叫做异策略（Off Policy）方法。

时序差分学习中的 $Q$ 学习算法即为一种异策略的学习算法。

基于值函数与基于策略函数

基于值函数的需要先估计出值函数 $Q$ ，策略是从 $Q$ 函数中最大的 action 推导出来的。相当于是一种间接的方式得出最优策略。

基于策略函数的直接优化策略的参数 $\theta$ 。

更加泛化的强化学习

部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程（Partially Observable Markov Decision Processes, POMDP）是一个马尔可夫决策过程的泛化。POMDP 依然具有马尔可夫性，但是假设智能体无法感知环境的状态 $s$ ，只能知道部分观测值 $o$ 。比如在自动驾驶中，智能体只能感知传感器采集的有限的环境信息。

逆向强化学习

逆向强化学习（Inverse Reinforcement Learning, IRL）就是指一个不带奖励的马尔可夫决策过程，通过给定的一组专家（或教师）的行为轨迹示例来逆向估计出奖励函数 $r\left(s, a, s^{\prime}\right)$ 来解释专家的行为，然后再进行强化学习。

分层强化学习

分层强化学习（Hierarchical Reinforcement Learning, HRL）是指将一个复杂的强化学习问题分解成多个小的、简单的子问题，每个子问题都可以单独用马尔可夫决策过程来建模。这样，我们可以将智能体的策略分为高层次策略和低层次策略，高层次策略根据当前状态决定如何执行低层次策略。 这样，智能体就可以解决一些非常复杂的任务。

强化学习学习资料

赵世钰老师的强化学习的数学原理一书：MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning: This is the homepage of a new book entitled "Mathematical Foundations of Reinforcement Learning."