深度强化学习算法与应用研究现状综述

被引：223

作者：

刘朝阳 ^{[1
]}

穆朝絮 ^{[1
]}

孙长银 ^{[2
]}

机构：

[1] 天津大学电气自动化与信息工程学院

[2] 东南大学自动化学院

来源：

智能科学与技术学报 | 2020年 / 04期

关键词：

人工智能; 深度强化学习; 值函数; 策略梯度; 导航; 协作; 复杂环境; 泛化性; 鲁棒性;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

140502 [人工智能];

摘要：

深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习算法,详细阐述了深度Q网络、深度策略梯度及相关改进算法的原理,并综述了深度强化学习在视频游戏、导航、多智能体协作以及推荐系统等领域的应用研究进展。最后,对深度强化学习的算法和应用进行展望,针对一些未来的研究方向和研究热点给出了建议。

引用

页码：314 / 326

页数：13

共 14 条

[1]

游戏智能中的AI——从多角色博弈到平行博弈 [J].

沈宇 ;

韩金朋 ;

李灵犀 ;

王飞跃 .

智能科学与技术学报, 2020, (03) :205-213

[2]

多智能体深度强化学习的若干关键科学问题 [J].

孙长银 ;

穆朝絮 .

自动化学报, 2020, 46 (07) :1301-1312

[3]

深度强化学习理论及其应用综述 [J].

万里鹏 ;

兰旭光 ;

张翰博 ;

郑南宁 .

模式识别与人工智能, 2019, 32 (01) :67-81

[4]

基于值函数和策略梯度的深度强化学习综述 [J].

刘建伟 ;

高峰 ;

罗雄麟 .

计算机学报, 2019, 42 (06) :1406-1438

[5]

深度强化学习综述 [J].

刘全 ;

翟建伟 ;

章宗长 ;

钟珊 ;

周倩 ;

章鹏 ;

徐进 .

计算机学报, 2018, 41 (01) :1-27

[6]

深度强化学习综述:兼论计算机围棋的发展 [J].

赵冬斌 ;

邵坤 ;

朱圆恒 ;

李栋 ;

陈亚冉 ;

王海涛 ;

刘德荣 ;

周彤 ;

王成红 .

控制理论与应用, 2016, 33 (06) :701-717

[7]

Q -learning[J] Christopher J. C. H. Watkins;Peter Dayan Machine Learning 1992,

[8]

Learning to Predict by the Methods of Temporal Differences[J] Richard S. Sutton Machine Learning 1988,

[9]

End-to-end navigation strategy with deep reinforcement learning for mobile robots SHI H;SHI L;XU M; et al; IEEE Transactions on Industrial Informatics 2020,

[10]

Counterfactual multi-agent policy gradients FOERSTER J;FARQUHAR G;AFOURAS T; et al; The 32nd AAAI Conferenceon Artificial Intelligence 2018,

← 1 2 →