贝尔曼方程与两类值函数

为了评估一个策略π\pi的期望回报,我们定义两个值函数:状态值函数状态-动作值函数

状态值函数

折扣率的引入

有终止状态的情况

总回报的引入方式如下:

G(τ)=t=0T1rt+1=t=0T1r(st,at,st+1)G(\tau)=\sum_{t=0}^{T-1} r_{t+1}=\sum_{t=0}^{T-1} r\left(s_{t}, a_{t}, s_{t+1}\right)

假设环境中有一个或多个终止状态,当到达终止状态时,一个智能体和环境的交互就结束了。这一轮的交互过程称为一个回合(episode)试验(trial)

没有终止状态的情况

如果环境中没有终止状态(比如终身学习的机器人),即T=T=\infty,称为持续性强化学习任务,其总回报也可能是无穷大。

为了解决这个问题,我们可以引入一个折扣率来降低远期回报的比重。折扣回报定义为

G(τ)=t=0T1γtrt+1G(\tau)=\sum_{t=0}^{T-1} \gamma^{t} r_{t+1}

其中,γ\gamma代表折扣率,其取值范围在零到一之间。

状态值函数的计算

状态值函数表示在某一状态ss​下,执行一个策略到最终状态所能够得到的总回报,数学公式使用Vπ(s)V^{\pi}(s)​来进行表示。

一个策略π\pi的总期望回报,可以通过以下公式进行计算:

Eτp(τ)[G(τ)]=Esp(s0)[Eτp(τ)t=0T1γtrt+1τs0=s]]=Esp(s0)[Vπ(s)],\begin{aligned} \mathbb{E}_{\tau \sim p(\tau)}[G(\tau)] &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[\mathbb{E}_{\tau \sim p(\tau)} \sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right] ] \\ &=\mathbb{E}_{s \sim p\left(s_{0}\right)}\left[V^{\pi}(s)\right], \end{aligned}

其中,状态值函数Vπ(s)V^{\pi}(s)可以通过如下来计算:

Vπ(s)=Eτp(τ)[t=0T1γtrt+1τs0=s]V^{\pi}(s)=\mathbb{E}_{\tau \sim p(\tau)}\left[\sum_{t=0}^{T-1} \gamma^{t} r_{t+1} | \tau_{s_{0}}=s\right]

这个公式的意思是:从状态ss出发所能得到的总回报等于以状态ss为初始状态的所有可能路径的回报的期望。根据马尔科夫性,Vπ(s)V^{\pi}(s)可展开得到:

Vπ(s)=Eaπ(as)Esp(ss,a)[r(s,a,s)+γVπ(s)]V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)} \mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]

该公式称为贝尔曼方程。表示当前状态的值函数可以通过下个状态的值函数来计算。

状态动作值函数

初始状态为ss并进行动作aa,然后执行策略π\pi得到的期望总回报,称为状态动作值函数,也称为QQ函数。

Qπ(s,a)=Esp(ss,a)[r(s,a,s)+γVπ(s)]Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma V^{\pi}\left(s^{\prime}\right)\right]

该公式表示在状态ss下,执行动作aa得到的期望回报Qπ(s,a)Q^{\pi}(s, a)为对于执行动作aa后的下一可能状态ss^{\prime}的值函数Vπ(s)V^{\pi}\left(s^{\prime}\right)的折扣期望加上该次获得的奖励r(s,a,s)r(s,a,s^{\prime})

又由于状态值函数Vπ(s)V^{\pi}\left(s\right)QQ函数Qπ(s,a)Q^{\pi}(s, a)关于动作aa的期望:

Vπ(s)=Eaπ(as)[Qπ(s,a)]V^{\pi}(s)=\mathbb{E}_{a \sim \pi(a | s)}\left[Q^{\pi}(s, a)\right]

结合上述公式,可以将QQ函数写为:

Qπ(s,a)=Esp(ss,a)[r(s,a,s)+γEaπ(as)[Qπ(s,a)]]Q^{\pi}(s, a)=\mathbb{E}_{s^{\prime} \sim p\left(s^{\prime} | s, a\right)}\left[r\left(s, a, s^{\prime}\right)+\gamma \mathbb{E}_{a^{\prime} \sim \pi\left(a^{\prime} | s^{\prime}\right)}\left[Q^{\pi}\left(s^{\prime}, a^{\prime}\right)\right]\right]

这是关于QQ函数的贝尔曼方程。