深度强化学习研究综述

被引：61

作者：

赵星宇 ^{[1
]}

丁世飞 ^{[1
,2
]}

机构：

[1] 中国矿业大学计算机科学与技术学院

[2] 中国科学院计算技术研究所智能信息处理重点实验室

来源：

计算机科学 | 2018年 / 45卷 / 07期

关键词：

深度强化学习; 深度学习; 强化学习; 人工智能;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

摘要：

作为一种崭新的机器学习方法,深度强化学习将深度学习和强化学习技术结合起来,使智能体能够从高维空间感知信息,并根据得到的信息训练模型、做出决策。由于深度强化学习算法具有通用性和有效性,人们对其进行了广泛的研究,并将其运用到了日常生活的各个领域。首先,对深度强化学习研究进行概述,介绍了深度强化学习的基础理论;然后,分别介绍了基于值函数和基于策略的深度强化学习算法,讨论了其应用前景;最后,对相关研究工作做了总结和展望。

引用

页码：1 / 6

页数：6

共 10 条

[1] 深度强化学习综述:兼论计算机围棋的发展
赵冬斌
邵坤
朱圆恒
李栋
陈亚冉
王海涛
刘德荣
周彤
王成红
[J]. 控制理论与应用, 2016, 33 (06) : 701 - 717
[2] 强化学习及其在电脑围棋中的应用
陈兴国
俞扬
[J]. 自动化学报, 2016, 42 (05) : 685 - 695
[3] 强化学习研究综述
高阳
陈世福
陆鑫
[J]. 自动化学报, 2004, (01) : 86 - 100
[4] A fast learning algorithm for deep belief nets
Hinton, Geoffrey E.
Osindero, Simon
Teh, Yee-Whye
[J]. NEURAL COMPUTATION, 2006, 18 (07) : 1527 - 1554
[5] Long short-term memory
Hochreiter, S
Schmidhuber, J
[J]. NEURAL COMPUTATION, 1997, 9 (08) : 1735 - 1780
[6] Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] . Ronald J. Williams.Machine Learning . 1992 (3)
[7] Prioritized experience replay .2 Schaul T,Quan J,Antonoglou I,Silver D. Proceedings of the 4th International Conference on Learning Representations . 2016
[8] End-to-end training of deep visuomotor policies .2 LEVINE S,FINN C,DARRELL T,et al. Journal of Machine Learning Research . 2016
[9] Reinforcement learning with unsupervised auxiliary tasks .2 JADERBERG M,MNIH V,CZARNECKI W,et al. https://arxiv.org/abs/ 1611.05397 .
[10] Deep reinforcement learning for dialogue generation .2 LI J,MONROE W,RITTER A,et al. https://arxiv.org/abs/ 1707.06347 .

← 1 →