基于加权密集连接卷积网络的深度强化学习方法

被引:8
作者
夏旻
宋稳柱
施必成
刘佳
机构
[1] 南京信息工程大学信息与控制学院
关键词
密集连接卷积网络; 深度强化学习; GridWorld; FlappyBird; 跨层连接;
D O I
暂无
中图分类号
TP183 [人工神经网络与计算];
学科分类号
摘要
针对深度强化学习中卷积神经网络(CNN)层数过深导致的梯度消失问题,提出一种将密集连接卷积网络应用于强化学习的方法。首先,利用密集连接卷积网络中的跨层连接结构进行图像特征的有效提取;然后,在密集连接卷积网络中加入权重系数,加权密集连接卷积网络中的每一层都接收到前面几层产生的所有特征图,且之前所有层在跨层连接中被赋予不同的初始权重;最后,在训练中动态调整每层的权重,从而更加有效地提取特征。与常规深度强化学习方法相比,在GridWorld仿真实验中,在相同训练步数内的平均奖励值提升了85.67%;在FlappyBird仿真中,平均奖励值提升了55.05%。实验结果表明所提方法能在不同难度的游戏仿真实验中获得更好的性能。
引用
收藏
页码:2141 / 2147
页数:7
相关论文
共 9 条
  • [1] Multiagent cooperation and competition with deep reinforcement learning
    Tampuu, Ardi
    Matiisen, Tambet
    Kodelja, Dorian
    Kuzovkin, Ilya
    Korjus, Kristjan
    Aru, Juhan
    Aru, Jaan
    Vicente, Raul
    [J]. PLOS ONE, 2017, 12 (04):
  • [2] Joint Extraction of Entities and Relations Using Reinforcement Learning and Deep Learning.[J].Yuntian Feng;Hongjun Zhang;Wenning Hao;Gang Chen;Athanasios Voulodimos.Computational Intelligence and Neuroscience.2017,
  • [3] Experience Replay for Real-Time Reinforcement Learning Control
    Adam, Sander
    Busoniu, Lucian
    Babuska, Robert
    [J]. IEEE TRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS AND REVIEWS, 2012, 42 (02): : 201 - 212
  • [4] Deep Belief Nets as Function Approximators for Reinforcement Learning.[J].Ian Fasel.Frontiers in Computational Neuroscience.2011,
  • [5] Reinforcement Learning: A Survey.[J].Kaelbling L. P.;Littman M. L.;Moore A. W..Journal of Artificial Intelligence Research.1996,
  • [6] 基于知识的深度强化学习研究综述
    李晨溪
    曹雷
    张永亮
    陈希亮
    周宇欢
    段理文
    [J]. 系统工程与电子技术, 2017, 39 (11) : 2603 - 2613
  • [7] 卷积神经网络研究综述
    李彦冬
    郝宗波
    雷航
    [J]. 计算机应用, 2016, 36 (09) : 2508 - 2515+2565
  • [8] 改进的Q学习算法在作业车间调度中的应用
    王超
    郭静
    包振强
    [J]. 计算机应用, 2008, 28 (12) : 3268 - 3270
  • [9] 基于TD强化学习智能博弈程序的设计与实现
    莫建文
    林士敏
    张顺岚
    [J]. 计算机应用, 2004, (S1) : 287 - 288