强化学习及其在电脑围棋中的应用

被引:28
作者
陈兴国 [1 ,2 ]
俞扬 [2 ]
机构
[1] 南京邮电大学计算机学院/软件学院
[2] 南京大学计算机软件新技术国家重点实验室
关键词
强化学习; 函数近似; 核方法; 神经网络; 加性模型; 深度强化学习;
D O I
10.16383/j.aas.2016.y000003
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
强化学习是一类特殊的机器学习,通过与所在环境的自主交互来学习决策策略,使得策略收到的长期累积奖赏最大.最近,在围棋和电子游戏等领域,强化学习被成功用于取得人类水平的操作能力,受到了广泛关注.本文将对强化学习进行简要介绍,重点介绍基于函数近似的强化学习方法,以及在围棋等领域中的应用.
引用
收藏
页码:685 / 695
页数:11
相关论文
共 23 条
[1]  
多核学习方法[J]. 汪洪桥,孙富春,蔡艳宁,陈宁,丁林阁.自动化学报. 2010(08)
[2]   强化学习中的迁移:方法和进展 [J].
王皓 ;
高阳 ;
陈兴国 .
电子学报, 2008, 36(S1) (S1) :39-43
[3]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[4]  
机器学习[M]. 科学出版社 , (美)迈克尔斯基(Michalski, 1992
[5]   Temporal-difference search in computer Go [J].
Silver, David ;
Sutton, Richard S. ;
Mueller, Martin .
MACHINE LEARNING, 2012, 87 (02) :183-219
[6]   Transfer in variable-reward hierarchical reinforcement learning [J].
Mehta, Neville ;
Natarajan, Sriraam ;
Tadepalli, Prasad ;
Fern, Alan .
MACHINE LEARNING, 2008, 73 (03) :289-312
[7]  
Natural Actor-Critic[J] . Jan Peters,Stefan Schaal.Neurocomputing . 2008 (7)
[8]   Learning near-optimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path [J].
Antos, Andras ;
Szepesvari, Csaba ;
Munos, Remi .
MACHINE LEARNING, 2008, 71 (01) :89-129
[9]   Learning tetris using the noisy cross-entropy method [J].
Szita, Istvan ;
Lorincz, Andras .
NEURAL COMPUTATION, 2006, 18 (12) :2936-2941
[10]   A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554