DeepMind提出Rainbow:整合DQN算法中的六种变体

发布时间:2017-10-19

    AlphaGo 之父David Sliver 等人最近探索的方向转向了强化学习和深度Q 网络(Deep Q-Network)。在DeepMind 最近发表的论文中,研究人员整合了DQN 算法中的六种变体,在Atari 游戏中达到了超越以往所有方法的表现。

    大规模强化学习(RL)在复杂连续决策问题中最成功的方法是Deep Q-Network 算法(DQN; Mnih et al. 2013, 2015)。它包含了Q 学习的卷积神经网络与以及反复经验(experience replay)而从原像素中学习,已在多种Atari 游戏中达到或超过了人类水平的表现。从那时起,很多扩展性方法被不断提出,不断提升着这种方法的速度和稳定性。

    Double DQN(DDQN;van Hasselt、Guez&Silver;2016)通过解耦选择(decoupling selection)和引导行动评估解决了Q 学习过度估计偏差的问题。Prioritized experience replay(Schaul 等人;2015)通过重放(replay)学习到更频繁的转换,提升了数据效率。dueling 网络架构(Wang 等人;2016)可以通过分别表示状态值和动作奖励来概括各种动作。从多步骤引导程序目标中学习(Sutton;1988;Sutton & Barto 1998)如A3C(Mnih 等人;2016)中使用偏差-方差权衡而帮助将最新观察到的奖励快速传播到旧状态中。分布式Q 学习(Bellemare、Dabney & Munos;2017)学习了折扣回报(discounted returns)的分类分布(代替了估计平均值)。Noisy DQN(Fortunato 等人;2017)使用随机网络层进行勘测(exploration)。当然,以上几种方法还不是全部。

 

图1. 57 个Atari 游戏中等人类水平与各类DQN 方法的对比。研究人员将各类DQN 方法结合起来(彩虹色)与DQN(灰色)和各自的表现基准进行了对比(其他各颜色)。DQN 混合方法的优势在7 百万帧后开始显现,在4400 万帧后大幅度领先,随后性能提升趋于平缓。

    以上这些算法各自都可以提升DQN 性能的某个方面,因为它们都着力于解决不同的问题,而且都构建在同一个框架上,所以能够被我们整合起来。在一些例子中这种方法已经被使用过了:Prioritized DDQN 和Dueling DDQN 都使用了Q 学习,Dueling DDQN 也结合了prioritized experience replay。在DeepMind 最近发表的论文中,研究人员讨论了综合上述所有方法的整合性方案,并提出了单智能体系统:Rainbow。研究人员展示了整合后的表现,证明了它们很大程度上是互补的。实际上,这些组合在57 个Atari 2600 游戏组成的基准测试环境中在数据效率和最终结果上都达成了新的业界最佳水平。该研究也提供了分类测试结果,显示了每种组件对于提升性能的贡献。

 

表1. Rainbow 的超参数。在57 种Atari 游戏的测试中,研究使用了同一个智能体和参数。

 

表2. Rainbow 和其他测试基准的表现分数对比。

 

图4. 所有57 个Atari 游戏的独立智能体(ablation agents)性能下降测试。性能是学习曲线下的面积,相对于Rainbow 智能体和DQN 进行了规则化。其中,DQN 超越Rainbow 的两种游戏被剔除了。导致性能下降最严重的组件在每个游戏中都被高亮显示了。删除优先级和多步骤学习在大多数游戏中造成的性能影响最大,不过每个组件在不同游戏中的影响各有差异。

摘编自:人工智能学家

论文Rainbow: Combining Improvements in Deep Reinforcement Learning