你好,强化学习
我正在学习的教材是《深度学习4--强化学习》,也可以称为“鱼书”。以此作为本文档的参考资料。
前置知识包括:微积分,概率论与数理统计,python基础,深度学习基础
我们可以根据问题的结构来对机器学习中使用的方法进行划分:
- 监督学习:使用带有输入和输出(正确答案标签)的成对数据,学习如何将输入转化为输出。
- 无监督学习:使用没有“正确答案标签”的数据来学习数据中的基本结构。
- 强化学习:学习如何使用智能代理在与环境互动时收集的数据获得更高的奖励。
因此,强化学习与其他类别有很大的不同。在与环境的互动中学习,从反复试错中学习,这才是强化学习。
对于智能体的策略,通常有两种做法:
- 利用(exploitation):即采取“贪婪行动”的做法。玩家将根据以前的经验选择最佳行动。但这样做也有可能错过更好的选择
- 探索(exploration):即“非贪婪行动”。通过探索,玩家可以对每台老虎机的价值做出更准确的估计。
强化学习算法最终归结为如何在“利用”和“探索”之间取得平衡。
在比较强化学习算法时,由于随机性的存在,因此在大多数情况下得知单次实验的结果是没什么用的。与之相比,评估算法的“平均好坏”更为有用。一种可行的评估方法是进行多次相同的实验,并对结果进行平均。这样一来,就能看出算法的平均水平有多好。