深度强化学习综述:兼论计算机围棋的发展

被引:129
作者
赵冬斌 [1 ]
邵坤 [1 ]
朱圆恒 [1 ]
李栋 [1 ]
陈亚冉 [1 ]
王海涛 [1 ]
刘德荣 [2 ]
周彤 [3 ]
王成红 [4 ]
机构
[1] 中国科学院自动化研究所复杂系统管理与控制国家重点实验室
[2] 北京科技大学自动化学院
[3] 清华大学自动化系
[4] 国家自然科学基金委信息科学部
关键词
深度强化学习; 初弈号; 深度学习; 强化学习; 人工智能;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法.自提出以来,深度强化学习在理论和应用方面均取得了显著的成果.尤其是谷歌深智(Deep Mind)团队基于深度强化学习方法研发的计算机围棋"初弈号–Alpha Go",在2016年3月以4:1的大比分战胜了世界围棋顶级选手李世石(Lee Sedol),成为人工智能历史上一个新里程碑.为此,本文综述深度强化学习的发展历程,兼论计算机围棋的历史,分析算法特性,探讨未来的发展趋势和应用前景,期望能为控制理论与应用新方向的发展提供有价值的参考.
引用
收藏
页码:701 / 717
页数:17
相关论文
共 25 条
  • [1] 阿法狗围棋系统的简要分析
    田渊栋
    [J]. 自动化学报, 2016, 42 (05) : 671 - 675
  • [2] 深度学习在游戏中的应用
    郭潇逍
    李程
    梅俏竹
    [J]. 自动化学报, 2016, 42 (05) : 676 - 684
  • [3] 面向多机器人系统的增强学习研究进展综述
    吴军
    徐昕
    王健
    贺汉根
    [J]. 控制与决策, 2011, 26 (11) : 1601 - 1610+1615
  • [4] 强化学习研究综述
    高阳
    陈世福
    陆鑫
    [J]. 自动化学报, 2004, (01) : 86 - 100
  • [5] A supervised Actor–Critic approach for adaptive cruise control
    Dongbin Zhao
    Bin Wang
    Derong Liu
    [J]. Soft Computing, 2013, 17 : 2089 - 2099
  • [6] Action, Outcome, and Value[J] . Fiery Cushman.Personality and Social Psychology Review . 2013 (3)
  • [7] Self-teaching adaptive dynamic programming for Gomoku[J] . Dongbin Zhao,Zhen Zhang,Yujie Dai.Neurocomputing . 2011 (1)
  • [8] Adaptive-resolution reinforcement learning with polynomial exploration in deterministic domains
    Bernstein, Andrey
    Shimkin, Nahum
    [J]. MACHINE LEARNING, 2010, 81 (03) : 359 - 397
  • [9] Teachable robots: Understanding human teaching behavior to build more effective robot learners[J] . Andrea L. Thomaz,Cynthia Breazeal.Artificial Intelligence . 2007 (6)
  • [10] A fast learning algorithm for deep belief nets
    Hinton, Geoffrey E.
    Osindero, Simon
    Teh, Yee-Whye
    [J]. NEURAL COMPUTATION, 2006, 18 (07) : 1527 - 1554