什么是强化学习
什么是强化学习
目前,机器学习分为四类:
- 监督学习。
- 无监督学习。
- 半监督学习。
- 强化学习。
强化学习即为其中的一种。强化学习和监督学习的区别在于:
- 强化学习的样本通过与环境进行交互产生,即试错学习,而监督学习的样本由人工收集并标注。
- 强化学习的反馈信息只有奖励,并且是延迟的;而监督学习需要明确的指导信息(每一个状态对应的动作)。
现代强化学习可以追溯到两个来源:
- 一个是心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为;
- 另一个是控制论领域的最优控制问题,即在满足一定约束条件下,寻求最优控制策略,使得性能指标取极大值或极小值。
强化学习的算法分为以下几类:
![[nndl-book.pdf#page=365&rect=42,147,354,325&color=annotate | nndl-book, p.350]] |
强化学习中的概念与表示
强化学习符号表:
- 状态:,状态空间:
- 轨迹:
- 动作:,动作空间:
- 回报:
- 策略:
- 折扣率:
- 总回报:
- 一条轨迹的总回报:
- 基于策略算法的目标函数 ,一般定义为总回报的期望。
- 状态值函数:
- 状态动作值函数:
- 当前对于值函数的估计:
- 次实验后的值函数:
- 策略参数
强化学习算法分类
从数据采集(数据来源)上来说:
- 在线算法(Online)
- 离线算法(Offline)
从采样策略和目标策略来说:
- 同策略(On Policy)
- 异策略(Off Policy)
模型(这里指 MDP 模型,主要是状态转移概率 $p(s^{\prime} | s, a)r(s,a,s^{\prime})$)是否已知? |
- 基于模型的强化学习(Model-Based Reinforcement Learning)
- 模型未知,基于采样:模型无关的强化学习(Model-Free Reinforcement Learning)
从学习方式来说:
- 基于值函数的
- 基于策略函数
- 演员评论员
算法 | 基于模型/模型无关 | 在线/离线 | 同策略/异策略 | 学习方式 |
---|---|---|---|---|
动态规划 | 基于模型 | 无(不需要数据采集) | 无(无采样策略) | 基于值函数 |
蒙特卡洛 | 模型无关 | 在线 | 都可以 | 基于值函数 |
SARSA | 模型无关 | 在线 | 同策略 | 基于值函数 |
Q 学习 | 模型无关 | 在线 | 异策略 | 基于值函数 |
在线(Online)与离线(Offline)强化学习算法
在线:算法在训练过程中,会持续与环境交互,根据交互得到的新数据立即或持续地更新模型。这是一个 “探索 - 学习” 的循环。
离线:算法在训练过程中,不会与环境进行任何交互。它仅仅利用一个事先收集好的、固定的静态数据集来训练模型。训练完成后,再部署应用。这是一个 “学习 - 应用” 的过程。
同策略(On Policy)与异策略(Off Policy)强化学习算法
同策略(On Policy)与异策略(Off Policy)只用于形容通过采样进行学习的算法,如蒙特卡洛算法(通过大量的对于完整轨迹的采样对值函数进行正确预估)、时序差分学习算法( 和 学习算法都是采样一步,更新一步,不需要提前得知一次采样的完整轨迹)。由于在动态规划算法算法中,模型已知不需要进行采样,策略的预估不需要进行迭代更新,所以同策略与异策略不能用于形容动态规划算法。
首先需要定义两个策略:
- 行为策略(Behavior Policy):即智能体用来采取行动(Action)、与环境交互并产生数据的策略。它决定了“如何探索”,这个策略的目的是获取轨迹信息,也就是获取学习数据。
- 目标策略(Target Policy):即我们真正想要学习、最终用于决策的优化策略。它通常是“如何利用”的策略,这个策略是我们要优化的策略,最终会使用这个策略来部署。
同策略
如果采样策略是 ,通过采样得到的数据不断改进的策略也是 ,而不是目标策略 ,这种采样与改进策略相同的强化学习方法叫做同策略(On Policy)方法。
同策略算是是可以自我迭代的,一边收集数据,一边改进自身。
时序差分学习中的 算法即为一种同策略的学习算法。
异策略
如果采样策略是 ,而优化目标策略是策略 ,可以通过重要性采样,引入重要性权重来实现对于目标策略 的优化。这种采样与改进分别使用不同策略的强化学习方法叫做异策略(Off Policy)方法。
时序差分学习中的 学习算法即为一种异策略的学习算法。
基于值函数与基于策略函数
基于值函数的需要先估计出值函数 ,策略是从 函数中最大的 action 推导出来的。相当于是一种间接的方式得出最优策略。
基于策略函数的直接优化策略的参数 。
更加泛化的强化学习
部分可观测马尔可夫决策过程
部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)是一个马尔可夫决策过程的泛化。POMDP 依然具有马尔可夫性,但是假设智能体无法感知环境的状态 ,只能知道部分观测值 。比如在自动驾驶中,智能体只能感知传感器采集的有限的环境信息。
逆向强化学习
逆向强化学习(Inverse Reinforcement Learning, IRL)就是指一个不带奖励的马尔可夫决策过程,通过给定的一组专家(或教师)的行为轨迹示例来逆向估计出奖励函数 来解释专家的行为,然后再进行强化学习。
分层强化学习
分层强化学习(Hierarchical Reinforcement Learning, HRL)是指将一个复杂的强化学习问题分解成多个小的、简单的子问题,每个子问题都可以单独用马尔可夫决策过程来建模。这样,我们可以将智能体的策略分为高层次策略和低层次策略,高层次策略根据当前状态决定如何执行低层次策略。 这样,智能体就可以解决一些非常复杂的任务。