贝尔曼方程
认识贝尔曼方程
前置知识:概率与期望
注意:贝尔曼方程是强化学习中的基础,后面要学习的方法都与贝尔曼方程有关。
我们假设环境是确定性的,而且智能代理的行动也是确定性的,那么状态价值函数就可以(靠数学式)手动算出。但如果智能代理的行动是随机的呢?
此时就需要贝尔曼方程(Bellman equation)。
贝尔曼方程是表示状态
行动价值函数
行动价值函数(action-value function)也被习惯性德称为“Q-函数”(Q-function)。
Q 函数在时刻
与状态价值函数的区别?
在状态价值函数中,行动是根据策略选择的。而Q函数的行动选择是随机的。
贝尔曼最优方程
贝尔曼方程是对策略
最优策略
如果我们知道最优行动价值函数(optimal action-value function)