策略梯度法
之前的方法中,我们对价值函数(Q 函数或状态价值函数)进行建模并训练,之后借助价值函数获得策略,这样的方法叫做基于价值的方法(value-based method)。而不考虑价值函数直接表示策略的方法,叫做基于策略的方法(policy-based method)。通过神经网络将策略模型化,并通过梯度来优化模型,这种方法叫做策略梯度法(policy gradient method)。
策略梯度方法的优点
策略直接模型化,更高效
基于策略的方法可以直接预测策略。并且有些具有形状复杂的价值函数的问题,其最优策略能很简单。对于这样的情况,基于策略的方法有望更快地训练。
可以用于连续的行动空间
基于策略的方法对于连续的行动空间的情况也能轻松应对。例如,对于神经网络的输出呈正态分布的情况,可以考虑让神经网络输出正态分布的均值和方差。根据其均值和方差进行采样,即可得到连续值。
行动的选择概略平滑变化
基于策略的方法是通过 Softmax 函数确定各行动的概率。因此,在更新策略参数的过程中,各行动的概率会平滑地变化。这使得策略梯度法的训练更趋于稳定。
统一的范式
策略梯度方法可以用统一的数学式表达。
最简单的策略梯度法 REINFORCE REINFORCE with baseline Actor-Critic
展开说说
由“状态、行动、奖励”构成的时间序列数据称为轨迹(trajectory)。
此时有带折现率
以此为基础寻找最有函数的办法就是最简单的策略梯度法。而当我们要评估某个时刻
基线(baseline)方法的目的是减小离散数据之间的方差,带来更高样本效率的训练。例如对于某组数据,可以用之前数据的平均值与当前数据取差值,来代替该数据并求得方差。
Actor-Critic 方法是将价值函数模型化,同时训练两个模型。用价值模型