深度强化学习研究综述

被引:61
作者
赵星宇 [1 ]
丁世飞 [1 ,2 ]
机构
[1] 中国矿业大学计算机科学与技术学院
[2] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
深度强化学习; 深度学习; 强化学习; 人工智能;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。
引用
收藏
页码:1 / 6
页数:6
相关论文
共 10 条
  • [1] 深度强化学习综述:兼论计算机围棋的发展
    赵冬斌
    邵坤
    朱圆恒
    李栋
    陈亚冉
    王海涛
    刘德荣
    周彤
    王成红
    [J]. 控制理论与应用, 2016, 33 (06) : 701 - 717
  • [2] 强化学习及其在电脑围棋中的应用
    陈兴国
    俞扬
    [J]. 自动化学报, 2016, 42 (05) : 685 - 695
  • [3] 强化学习研究综述
    高阳
    陈世福
    陆鑫
    [J]. 自动化学报, 2004, (01) : 86 - 100
  • [4] A fast learning algorithm for deep belief nets
    Hinton, Geoffrey E.
    Osindero, Simon
    Teh, Yee-Whye
    [J]. NEURAL COMPUTATION, 2006, 18 (07) : 1527 - 1554
  • [5] Long short-term memory
    Hochreiter, S
    Schmidhuber, J
    [J]. NEURAL COMPUTATION, 1997, 9 (08) : 1735 - 1780
  • [6] Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] . Ronald J. Williams.Machine Learning . 1992 (3)
  • [7] Prioritized experience replay .2 Schaul T,Quan J,Antonoglou I,Silver D. Proceedings of the 4th International Conference on Learning Representations . 2016
  • [8] End-to-end training of deep visuomotor policies .2 LEVINE S,FINN C,DARRELL T,et al. Journal of Machine Learning Research . 2016
  • [9] Reinforcement learning with unsupervised auxiliary tasks .2 JADERBERG M,MNIH V,CZARNECKI W,et al. https://arxiv.org/abs/ 1611.05397 .
  • [10] Deep reinforcement learning for dialogue generation .2 LI J,MONROE W,RITTER A,et al. https://arxiv.org/abs/ 1707.06347 .