什么是强化学习
什么是强化学习
目前,机器学习分为四类:
- 监督学习。
- 无监督学习。
- 半监督学习。
- 强化学习。
强化学习即为其中的一种。强化学习和监督学习的区别在于:
- 强化学习的样本通过与环境进行交互产生,即试错学习,而监督学习的样本由人工收集并标注。
- 强化学习的反馈信息只有奖励,并且是延迟的;而监督学习需要明确的指导信息(每一个状态对应的动作)。
现代强化学习可以追溯到两个来源:
- 一个是心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为;
- 另一个是控制论领域的最优控制问题,即在满足一定约束条件下,寻求最优控制策略,使得性能指标取极大值或极小值。
强化学习的算法分为以下几类:
![[nndl-book.pdf#page=365&rect=42,147,354,325&color=annotate | nndl-book, p.350]] |
强化学习中的概念与表示
强化学习符号表:
- 状态:,状态空间:
- 轨迹:
- 动作:,动作空间:
- 回报:
- 策略:
- 折扣率:
- 总回报:
- 一条轨迹的总回报:
- 状态值函数:
- 状态动作值函数:
- 当前对于值函数的估计:
- 次实验后的值函数:
强化学习算法分类
从数据采集(数据来源)上来说:
- 在线算法(Online)
- 离线算法(Offline)
从采样策略和目标策略来说:
- 同策略(On Policy)
- 异策略(Off Policy)
模型(这里指 MDP 模型,主要是状态转移概率 $p(s^{\prime} | s, a)r(s,a,s^{\prime})$)是否已知? |
- 基于模型的强化学习(Model-Based Reinforcement Learning)
- 模型未知,基于采样:模型无关的强化学习(Model-Free Reinforcement Learning)
从学习方式来说:
- 基于值函数的
- 基于策略函数
- 演员评论员
算法 | 基于模型/模型无关 | 在线/离线 | 同策略/异策略 | 学习方式 |
---|---|---|---|---|
动态规划 | 基于模型 | 无(不需要数据采集) | 无(无采样策略) | 基于值函数 |
蒙特卡洛 | 模型无关 | 在线 | 都可以 | 基于值函数 |
SARSA | 模型无关 | 在线 | 同策略 | 基于值函数 |
Q 学习 | 模型无关 | 在线 | 异策略 | 基于值函数 |
在线(Online)与离线(Offline)强化学习算法
在线:算法在训练过程中,会持续与环境交互,根据交互得到的新数据立即或持续地更新模型。这是一个 “探索 - 学习” 的循环。
离线:算法在训练过程中,不会与环境进行任何交互。它仅仅利用一个事先收集好的、固定的静态数据集来训练模型。训练完成后,再部署应用。这是一个 “学习 - 应用” 的过程。
同策略(On Policy)与异策略(Off Policy)强化学习算法
同策略(On Policy)与异策略(Off Policy)只用于形容通过采样进行学习的算法,如蒙特卡洛算法(通过大量的对于完整轨迹的采样对值函数进行正确预估)、时序差分学习算法( 和 学习算法都是采样一步,更新一步,不需要提前得知一次采样的完整轨迹)。由于在动态规划算法算法中,模型已知不需要进行采样,策略的预估不需要进行迭代更新,所以同策略与异策略不能用于形容动态规划算法。
首先需要定义两个策略:
- 行为策略(Behavior Policy):即智能体用来采取行动(Action)、与环境交互并产生数据的策略。它决定了“如何探索”,这个策略的目的是获取轨迹信息,也就是获取学习数据。
- 目标策略(Target Policy):即我们真正想要学习、最终用于决策的优化策略。它通常是“如何利用”的策略,这个策略是我们要优化的策略,最终会使用这个策略来部署。
同策略
如果采样策略是 ,通过采样得到的数据不断改进的策略也是 ,而不是目标策略 ,这种采样与改进策略相同的强化学习方法叫做同策略(On Policy)方法。
同策略算是是可以自我迭代的,一边收集数据,一边改进自身。
时序差分学习中的 算法即为一种同策略的学习算法。
异策略
如果采样策略是 ,而优化目标策略是策略 ,可以通过重要性采样,引入重要性权重来实现对于目标策略 的优化。这种采样与改进分别使用不同策略的强化学习方法叫做异策略(Off Policy)方法。
时序差分学习中的 学习算法即为一种异策略的学习算法。
更加泛化的强化学习
部分可观测马尔可夫决策过程
部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔可夫决策过程的泛化。POMDP 依然具有马尔可夫性,但是假设智能体无法感知环境的状态 ,只能知道部分观测值 。比如在自动驾驶中,智能体只能感知传感器采集的有限的环境信息。
逆向强化学习
逆向强化学习(Inverse Reinforcement Learning, IRL)就是指一个不带奖励的马尔可夫决策过程,通过给定的一组专家(或教师)的行为轨迹示例来逆向估计出奖励函数 来解释专家的行为,然后再进行强化学习。
分层强化学习
分层强化学习(Hierarchical Reinforcement Learning, HRL)是指将一个复杂的强化学习问题分解成多个小的、简单的子问题,每个子问题都可以单独用马尔可夫决策过程来建模。这样,我们可以将智能体的策略分为高层次策略和低层次策略,高层次策略根据当前状态决定如何执行低层次策略。 这样,智能体就可以解决一些非常复杂的任务。