深度强化学习算法与应用研究现状综述

被引:223
作者
刘朝阳 [1 ]
穆朝絮 [1 ]
孙长银 [2 ]
机构
[1] 天津大学电气自动化与信息工程学院
[2] 东南大学自动化学院
关键词
人工智能; 深度强化学习; 值函数; 策略梯度; 导航; 协作; 复杂环境; 泛化性; 鲁棒性;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。
引用
收藏
页码:314 / 326
页数:13
相关论文
共 14 条
[1]
游戏智能中的AI——从多角色博弈到平行博弈 [J].
沈宇 ;
韩金朋 ;
李灵犀 ;
王飞跃 .
智能科学与技术学报, 2020, (03) :205-213
[2]
多智能体深度强化学习的若干关键科学问题 [J].
孙长银 ;
穆朝絮 .
自动化学报, 2020, 46 (07) :1301-1312
[3]
深度强化学习理论及其应用综述 [J].
万里鹏 ;
兰旭光 ;
张翰博 ;
郑南宁 .
模式识别与人工智能, 2019, 32 (01) :67-81
[4]
基于值函数和策略梯度的深度强化学习综述 [J].
刘建伟 ;
高峰 ;
罗雄麟 .
计算机学报, 2019, 42 (06) :1406-1438
[5]
深度强化学习综述 [J].
刘全 ;
翟建伟 ;
章宗长 ;
钟珊 ;
周倩 ;
章鹏 ;
徐进 .
计算机学报, 2018, 41 (01) :1-27
[6]
深度强化学习综述:兼论计算机围棋的发展 [J].
赵冬斌 ;
邵坤 ;
朱圆恒 ;
李栋 ;
陈亚冉 ;
王海涛 ;
刘德荣 ;
周彤 ;
王成红 .
控制理论与应用, 2016, 33 (06) :701-717
[7]
Q -learning[J] Christopher J. C. H. Watkins;Peter Dayan Machine Learning 1992,
[8]
Learning to Predict by the Methods of Temporal Differences[J] Richard S. Sutton Machine Learning 1988,
[9]
End-to-end navigation strategy with deep reinforcement learning for mobile robots SHI H;SHI L;XU M; et al; IEEE Transactions on Industrial Informatics 2020,
[10]
Counterfactual multi-agent policy gradients FOERSTER J;FARQUHAR G;AFOURAS T; et al; The 32nd AAAI Conferenceon Artificial Intelligence 2018,