多智能体深度强化学习的若干关键科学问题

被引：91

作者：

孙长银 ^{[1
]}

穆朝絮 ^{[2
]}

机构：

[1] 东南大学自动化学院

[2] 天津大学电气自动化与信息工程学院

来源：

自动化学报 | 2020年 / 46卷 / 07期

关键词：

强化学习; 深度强化学习; 多智能体; 学习系统; 智能控制; 决策优化;

D O I：

10.16383/j.aas.c200159

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史,但强化学习方法在处理高维变量问题时常常会面临巨大挑战.近年来,深度学习迅猛发展,使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能.本文综述了强化学习和深度强化学习方法的原理,提出学习系统的闭环控制框架,分析了多智能体深度强化学习中存在的若干重要问题和解决方法,包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题,对所调查方法的优缺点和相关应用进行分析和讨论.最后提供多智能体深度强化学习未来的研究方向,为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路.

引用

页码：1301 / 1312

页数：12

共 14 条

[1] 基于深度强化学习的有轨电车信号优先控制
王云鹏
郭戈
[J]. 自动化学报, 2019, 45 (12) : 2366 - 2377
[2] 从F03项目资助情况分析我国自动化学科的发展现状与趋势
吴国政
[J]. 自动化学报, 2019, 45 (09) : 1611 - 1619
[3] A Survey of Human-centered Intelligent Robots:Issues and Challenges[J]. Wei He,Zhijun Li,C.L.Philip Chen.IEEE/CAA Journal of Automatica Sinica. 2017(04)
[4] 深度强化学习综述:兼论计算机围棋的发展
赵冬斌
邵坤
朱圆恒
李栋
陈亚冉
王海涛
刘德荣
周彤
王成红
[J]. 控制理论与应用, 2016, 33 (06) : 701 - 717
[5] 人工智能面临的挑战
郑南宁
[J]. 自动化学报, 2016, 42 (05) : 641 - 642
[6] AlphaGo专题介绍
周志华
[J]. 自动化学报, 2016, 42 (05) : 670 - 670
[7] 增强学习与近似动态规划[M]. 科学出版社 , 徐昕, 2010
[8] Reinforcement learning-based asymptotic cooperative tracking of a class multi-agent dynamic systems using neural networks[J] . Lili Cui,Xiaowei Wang,Yong Zhang.Neurocomputing . 2016
[9] Multi-agent reinforcement learning as a rehearsal for decentralized planning[J] . Landon Kraemer,Bikramjit Banerjee.Neurocomputing . 2016
[10] Distributed Multi-Agent-Based Protection Scheme for Transient Stability Enhancement in Power Systems
Rahman, M. S.
Mahmud, M. A.
Pota, H. R.
Hossain, M. J.
Orchi, T. F.
[J]. INTERNATIONAL JOURNAL OF EMERGING ELECTRIC POWER SYSTEMS, 2015, 16 (02): : 117 - 129

← 1 2 →