传统强化学习

通过稀疏的回报来学习策略。

传统的强化学习方法在模拟环境中，即我们能够忍受大量的试验、且容易并行化的问题中更加成功，而在机器人系统，比如动作执行会花很长的时间，失败的成本无法负担而且对于安全性要求较高的环境中则不适用。

重构回报

综合来考虑，通过学习示例的方法来解决目前传统强化学习所面临的问题更加靠谱。

通过一个专家（老师）的监督，这些专家提供了一系列演示的路径（一个状态和动作的序列）。

模仿学习在当一个专家能够演示需要的动作时更加有用，而不是：

代理人（学习者）需要提出一个由此产生的决策使得状态，动作轨迹分布与专家轨迹匹配分配。

专家可以是：