强化学习及其在电脑围棋中的应用

被引：28

作者：

陈兴国 ^{[1
,2
]}

俞扬 ^{[2
]}

机构：

[1] 南京邮电大学计算机学院/软件学院

[2] 南京大学计算机软件新技术国家重点实验室

来源：

自动化学报 | 2016年 / 42卷 / 05期

关键词：

强化学习; 函数近似; 核方法; 神经网络; 加性模型; 深度强化学习;

D O I：

10.16383/j.aas.2016.y000003

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

摘要：

强化学习是一类特殊的机器学习,通过与所在环境的自主交互来学习决策策略,使得策略收到的长期累积奖赏最大.最近,在围棋和电子游戏等领域,强化学习被成功用于取得人类水平的操作能力,受到了广泛关注.本文将对强化学习进行简要介绍,重点介绍基于函数近似的强化学习方法,以及在围棋等领域中的应用.

引用

页码：685 / 695

页数：11

共 23 条

[1]

多核学习方法[J]. 汪洪桥,孙富春,蔡艳宁,陈宁,丁林阁.自动化学报. 2010(08)

[2] 强化学习中的迁移:方法和进展 [J].

王皓 ;

高阳 ;

陈兴国 .

电子学报, 2008, 36(S1) (S1) :39-43

[3] 强化学习研究综述 [J].

高阳 ;

陈世福 ;

陆鑫 .

自动化学报, 2004, (01) :86-100

[4]

机器学习[M]. 科学出版社 , (美)迈克尔斯基(Michalski, 1992

[5] Temporal-difference search in computer Go [J].

Silver, David ;

Sutton, Richard S. ;

Mueller, Martin .

MACHINE LEARNING, 2012, 87 (02) :183-219

[6] Transfer in variable-reward hierarchical reinforcement learning [J].

Mehta, Neville ;

Natarajan, Sriraam ;

Tadepalli, Prasad ;

Fern, Alan .

MACHINE LEARNING, 2008, 73 (03) :289-312

[7]

Natural Actor-Critic[J] . Jan Peters,Stefan Schaal.Neurocomputing . 2008 (7)

[8] Learning near-optimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path [J].

Antos, Andras ;

Szepesvari, Csaba ;

Munos, Remi .

MACHINE LEARNING, 2008, 71 (01) :89-129

[9] Learning tetris using the noisy cross-entropy method [J].

Szita, Istvan ;

Lorincz, Andras .

NEURAL COMPUTATION, 2006, 18 (12) :2936-2941

[10] A fast learning algorithm for deep belief nets [J].

Hinton, Geoffrey E. ;

Osindero, Simon ;

Teh, Yee-Whye .

NEURAL COMPUTATION, 2006, 18 (07) :1527-1554

← 1 2 3 →