基于优势学习的深度Q网络

被引:17
作者
夏宗涛
秦进
机构
[1] 贵州大学计算机科学与技术学院
关键词
强化学习; 优势学习; 深度Q网络; 过估计问题;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
强化学习问题中,同一状态下不同动作所对应的状态-动作值存在差距过小的现象,Q-Learning算法采用MAX进行动作选择时会出现过估计问题,且结合了Q-Learning的深度Q网络(Deep Q Net)同样存在过估计问题。为了缓解深度Q网络中存在的过估计问题,提出一种基于优势学习的深度Q网络,通过优势学习的方法构造一个更正项,利用目标值网络对更正项进行建模,同时与深度Q网络的评估函数进行求和作为新的评估函数。当选择的动作是最优动作时,更正项为零,不对评估函数的值进行改动,当选择的动作不是最优动作时,更正项的值为负,降低了非最优动作的评估值。和传统的深度Q网络相比,基于优势学习的深度Q网络在Playing Atari 2600的控制问题breakout、seaquest、phoenix、amidar中取得了更高的平均奖赏值,在krull、seaquest中取得了更加稳定的策略。
引用
收藏
页码:101 / 106
页数:6
相关论文
共 3 条
[1]
基于强化学习的无人坦克对战仿真研究 [J].
徐志雄 ;
曹雷 ;
陈希亮 .
计算机工程与应用, 2018, 54 (08) :166-171
[2]
平均奖赏强化学习算法研究 [J].
高阳 ;
周如益 ;
王皓 ;
曹志新 .
计算机学报, 2007, (08) :1372-1378
[3]
机器学习[M] 周志华 清华大学出版社 2016,