DQN
DQN 是基于 Q 学习和神经网络的算法,引入了经验回收(experience replay)和目标网络(target network)两种技术。
从监督学习与 Q 学习的区别谈起
在神经网络的训练中,为防止数据偏差,通常可以从数据集中随机取出数据。在Q学习中,每当智能代理对环境采取行动时都会产生数据。具体来说,使用在某个时刻
经验回放也可以用于其他异策略型的强化学习算法。
在监督学习中,我们要为训练数据添加正确答案标签。在这种情况下,输入的正确答案标签不变。以 MNIST 数据集为例,如果输人图像的正确答案标签为"7",那么该标签将总是为"7"。在神经网络的训练过程中,它的标签当然不会从"7"变成"4"。那么Q学习是怎样的情况呢?Q学习会将
首先,准备一个表示Q函数的原始网络(这个网络叫作 q_net)。然后,再准备了一个具有相同结构的网络(这个网络叫作 q_net_target)。q net 通过正常的 Q 学习进行更新。q_net_target 定期与 q_net 权重同步,其余时间里保持权重参数固定。接下来用 q_net_target 计算 TD 目标的值,就能抑制作为监督标签的 TD 目标的变化了。