深度强化学习综述

被引：489

作者：

刘全

翟建伟

章宗长

钟珊

周倩

章鹏

徐进

机构：

[1] 苏州大学计算机科学与技术学院

[2] 软件新技术与产业化协同创新中心

来源：

计算机学报 | 2018年 / 41卷 / 01期

关键词：

人工智能; 深度学习; 强化学习; 深度强化学习;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势.

引用

页码：1 / 27

页数：27

共 18 条

[1] 大数据下的基于深度神经网的相似汉字识别
杨钊
陶大鹏
张树业
金连文
[J]. 通信学报, 2014, 35 (09) : 184 - 189
[2] 基于RNN-RBM语言模型的语音识别研究
黎亚雄
张坚强
潘登
胡惮
[J]. 计算机研究与发展, 2014, 51 (09) : 1936 - 1944
[3] 一种基于线性函数逼近的离策略Q(λ)算法
傅启明
刘全
王辉
肖飞
于俊
李娇
[J]. 计算机学报, 2014, 37 (03) : 677 - 686
[4] 深度学习的昨天、今天和明天
余凯
贾磊
陈雨强
徐伟
[J]. 计算机研究与发展, 2013, 50 (09) : 1799 - 1804
[5] 深度学习研究综述
孙志军
薛磊
许阳明
王正
[J]. 计算机应用研究, 2012, 29 (08) : 2806 - 2810
[6] 强化学习中的迁移:方法和进展
王皓
高阳
陈兴国
[J]. 电子学报, 2008, 36(S1) (S1) : 39 - 43
[7] 平均奖赏强化学习算法研究
高阳
周如益
王皓
曹志新
[J]. 计算机学报, 2007, (08) : 1372 - 1378
[8] Terrain-Adaptive Locomotion Skills Using Deep Reinforcement Learning
Bin Peng, Xue
Berseth, Glen
van de Panne, Michiel
[J]. ACM TRANSACTIONS ON GRAPHICS, 2016, 35 (04):
[9] Reinforcement learning in feedback control[J] . Roland Hafner,Martin Riedmiller.Machine Learning . 2011 (1-2)
[10] A fast learning algorithm for deep belief nets
Hinton, Geoffrey E.
Osindero, Simon
Teh, Yee-Whye
[J]. NEURAL COMPUTATION, 2006, 18 (07) : 1527 - 1554

← 1 2 →