马尔可夫决策过程
环境和智能代理的数学表示
MDP(Markov Decision Process) 通过数学式来表示智能代理、环境以及二者之间的互动。要做到这一点,需要用数学式来表达状态迁移
,奖励
,策略
这3个要素。
状态迁移
对于随机性状态迁移:假设智能代理现在处于状态
换句话说,状态迁移不需要过去的信息——此前处于什么状态以及执行了哪些行动。这个特性被称为马尔可夫性(Markov property)。
奖励
假设奖励的发放是“确定性”的。当智能代理在处于状态
策略
智能代理的行动是由随机性策略决定的,数学式如下所示。
其表示在状态
MDP 的目标
收益(return)被表示为智能代理获得的奖励之和。智能代理的目标是使收益最大化。
其中,
为了处理智能代理的随机行动,需要使用期望值或“收益的期望值”作为衡量标准。收益的期望值的数学式如下所示。
其中,我们指定的条件是状态
MDP 的目标就是找到最优策略,即找到使收益最大化的策略。
在 MDP 中,至少存在一个最优策略。最优策略是确定行策略。
最优策略的状态价值函数叫做最优状态价值函数(optimal state-value function)。