深度强化学习进展:从AlphaGo到AlphaGo Zero

被引:97
作者
唐振韬
邵坤
赵冬斌
朱圆恒
机构
[1] 中国科学院自动化研究所复杂系统管理与控制国家重点实验室
[2] 中国科学院大学
关键词
深度强化学习; AlphaGo Zero; 深度学习; 强化学习; 人工智能;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果.并进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法,完胜AlphaGo,再一次刷新人们对深度强化学习的认知.深度强化学习结合了深度学习和强化学习的优势,可以在复杂高维的状态动作空间中进行端到端的感知决策.本文主要介绍了从AlphaGo到AlphaGo Zero的深度强化学习的研究进展.首先回顾对深度强化学习的成功作出突出贡献的主要算法,包括深度Q网络算法、A3C算法、策略梯度算法及其他算法的相应扩展.然后给出AlphaGo Zero的详细介绍和讨论,分析其对人工智能的巨大推动作用.并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进展,以及相关资源进展.最后探讨了深度强化学习的发展展望,以及对其他潜在领域的人工智能发展的启发意义.
引用
收藏
页码:1529 / 1546
页数:18
相关论文
共 9 条
[1]   概率近似正确的强化学习算法解决连续状态空间控制问题 [J].
朱圆恒 ;
赵冬斌 .
控制理论与应用, 2016, 33 (12) :1603-1613
[2]   深度强化学习综述:兼论计算机围棋的发展 [J].
赵冬斌 ;
邵坤 ;
朱圆恒 ;
李栋 ;
陈亚冉 ;
王海涛 ;
刘德荣 ;
周彤 ;
王成红 .
控制理论与应用, 2016, 33 (06) :701-717
[3]  
DeepStack: Expert-level artificial intelligence in heads-up no-limit poker[J] . Matej Moravc?c?i?k,Martin Schmid,Neil Burch,Viliam Lisc?i?y?,Dustin Morrill,Nolan Bard,Trevor Davis,Kevin Waugh,Michael Johanson,Michael Bowling.Science . 2017 (6337)
[4]  
Self-teaching adaptive dynamic programming for Gomoku[J] . Dongbin Zhao,Zhen Zhang,Yujie Dai.Neurocomputing . 2011 (1)
[5]  
Deepmind lab .2 BEATTIE C,LEIBO J Z,TEPLYASHIN D,et al. . 2016
[6]  
Rainbow:combining improvements in deep reinforcement learning .2 HESSEL M,MODAYIL J,VAN HASSELT H et al. . 2017
[7]  
Prioritized experience replay .2 Schaul T,Quan J,Antonoglou I,Silver D. Proceedings of the 4th International Conference on Learning Representations . 2016
[8]  
Learning continuous control policies by stochastic value gradients .2 Heess N,Wayne G,Silver D,et al. Advances in Neural Information Processing Systems . 2015
[9]  
PathNet:evolution channels gradient descent in super neural networks .2 Fernando C,Banarse D,Blundell C,et al. . 2017