贝尔曼方程

认识贝尔曼方程

前置知识：概率与期望
注意：贝尔曼方程是强化学习中的基础，后面要学习的方法都与贝尔曼方程有关。

我们假设环境是确定性的，而且智能代理的行动也是确定性的，那么状态价值函数就可以（靠数学式）手动算出。但如果智能代理的行动是随机的呢？

此时就需要贝尔曼方程（Bellman equation）。

\begin{aligned} v_{π} (s) & = E_{π} [G_{t} | S_{t} = s] \\ = E_{π} [R_{t} + γ G_{t + 1} | S_{t} = s] \\ = E_{π} [R_{t} | S_{t} = s] + γ E_{π} [G_{t + 1} | S_{t} = s] \\ = \sum_{a, s^{'}} π (a | s) p (s^{'} | s, a) r (s, a, s^{'}) + γ \sum_{a, s^{'}} π (a | s) p (s^{'} | s, a) v_{π} (s^{'}) \\ = \sum_{a, s^{'}} π (a | s) p (s^{'} | s, a) {r (s, a, s^{'}) + γ v_{π} (s^{'})} \end{aligned}

贝尔曼方程是表示状态 $s$ 的价值函数和下一个可能状态 $s^{'}$ 的价值函数之间关系的式子。这个方程对所有状态 $s$ 和所有策略 $π$ 都成立。

行动价值函数（action-value function）也被习惯性德称为“Q-函数”（Q-function）。

\begin{aligned} q_{π} (s, a) & = E_{π} [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{s^{'}} p (s^{'} | s, a) {r (s, a, s^{'}) + γ \sum_{a} π (a^{'} | s^{'}) q_{π} (s^{'}, a^{'})} \end{aligned}

Q 函数在时刻 $t$ 的状态 $s$ 下采取行动 $a$ ，并从 $t + 1$ 时刻才开始根据策略 $π$ 采取行动。

与状态价值函数的区别？

在状态价值函数中，行动是根据策略选择的。而Q函数的行动选择是随机的。

贝尔曼方程是对策略 $π$ 成立的方程。但我们最终想要求出的是最优策略。最优策略是使所有状态下的状态价值函数最大化的策略。因此需要对最优策略成立的方程，即贝尔曼最优方程（Bellman optimality equation）。

v_{*} (s) = max_{a} \sum_{s^{'}} p (s^{'} | s, a) {r (s, a, s^{'}) + γ v_{*} (s^{'})}

q_{*} (s, a) = \sum_{s^{'}} p (s^{'} | s, a) {r (s, a, s^{'}) + γ max_{a^{'}} q_{*} (s^{'}, a^{'})}

如果我们知道最优行动价值函数（optimal action-value function） $q_{*} (s, a)$ ，通过 $\arg max$ 返回最大值的参数（这里为行动 $a$ ），我们就可以选择使 $q_{*} (s, a)$ 成为最大值的行动。这个行动的选择就是最优策略。

\begin{aligned} μ_{*} (s) & = \underset{a}{\arg max} q_{*} (s, a) \\ = \underset{a}{\arg max} \sum_{s^{'}} p (s^{'} | s, a) {r (s, a, s^{'}) + γ v_{*} (s^{'})} \end{aligned}