基于优势学习的深度Q网络

被引：17

作者：

夏宗涛

秦进

机构：

[1] 贵州大学计算机科学与技术学院

来源：

计算机工程与应用 | 2019年 / 20期

关键词：

强化学习; 优势学习; 深度Q网络; 过估计问题;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

140502 [人工智能];

摘要：

强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。

引用

页码：101 / 106

页数：6