深度强化学习进展:从AlphaGo到AlphaGo Zero

被引：97

作者：

唐振韬

邵坤

赵冬斌

朱圆恒

机构：

[1] 中国科学院自动化研究所复杂系统管理与控制国家重点实验室

[2] 中国科学院大学

来源：

控制理论与应用 | 2017年 / 34卷 / 12期

关键词：

深度强化学习; AlphaGo Zero; 深度学习; 强化学习; 人工智能;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义.

引用

页码：1529 / 1546

页数：18

共 9 条

[1] 概率近似正确的强化学习算法解决连续状态空间控制问题 [J].

朱圆恒 ;

赵冬斌 .

控制理论与应用, 2016, 33 (12) :1603-1613

[2] 深度强化学习综述:兼论计算机围棋的发展 [J].

赵冬斌 ;

邵坤 ;

朱圆恒 ;

李栋 ;

陈亚冉 ;

王海涛 ;

刘德荣 ;

周彤 ;

王成红 .

控制理论与应用, 2016, 33 (06) :701-717

[3]

DeepStack: Expert-level artificial intelligence in heads-up no-limit poker[J] . Matej Moravc?c?i?k,Martin Schmid,Neil Burch,Viliam Lisc?i?y?,Dustin Morrill,Nolan Bard,Trevor Davis,Kevin Waugh,Michael Johanson,Michael Bowling.Science . 2017 (6337)

[4]

Self-teaching adaptive dynamic programming for Gomoku[J] . Dongbin Zhao,Zhen Zhang,Yujie Dai.Neurocomputing . 2011 (1)

[5]

Deepmind lab .2 BEATTIE C,LEIBO J Z,TEPLYASHIN D,et al. . 2016

[6]

Rainbow:combining improvements in deep reinforcement learning .2 HESSEL M,MODAYIL J,VAN HASSELT H et al. . 2017

[7]

Prioritized experience replay .2 Schaul T,Quan J,Antonoglou I,Silver D. Proceedings of the 4th International Conference on Learning Representations . 2016

[8]

Learning continuous control policies by stochastic value gradients .2 Heess N,Wayne G,Silver D,et al. Advances in Neural Information Processing Systems . 2015

[9]

PathNet:evolution channels gradient descent in super neural networks .2 Fernando C,Banarse D,Blundell C,et al. . 2017

← 1 →