采用时间差分算法的九路围棋机器博弈系统

被引：5

作者：

张小川

唐艳

梁宁宁

机构：

[1] 重庆理工大学计算机科学与工程学院

来源：

智能系统学报 | 2012年 / 7卷 / 03期

关键词：

机器博弈; 九路围棋; 围棋机器博弈; 时间差分算法;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

围棋机器博弈是机器博弈中重要的分支之一,其庞大的博弈空间给机器博弈研究者带来了巨大挑战.目前围棋机器博弈多采用静态估值搜索与蒙特卡洛树搜索,故将时间差分算法引入至九路围棋机器博弈系统中,提出基于时间差分算法的围棋机器博弈系统模型,该博弈系统具有一定的自学习能力,能在不断的对弈中逐步提高博弈能力.通过与采用α-β搜索算法的博弈系统进行实际对弈,证明了该方法的可行性.

引用

页码：278 / 282

页数：5

共 8 条

[1]

现代计算机围棋基础.[M].刘知青; 李文峰; 著.北京邮电大学出版社.2011,

[2]

机器学习导论.[M].(土) 阿培丁 (Alpaydin;E.) ; 著.机械工业出版社.2009,

[3]

聂卫平围棋道场.[M].聂卫平主编;.北京体育大学出版社.2004,

[4]

Learning to predict by the methods of temporal differences.[J].Richard S. Sutton.Machine Learning.1988, 1

[5] 面向机器博弈的即时差分学习研究 [J].

徐长明 ;

马宗民 ;

徐心和 ;

李新星 .

计算机科学, 2010, 37 (08) :219-223

[6] 博弈树启发式搜索的α-β剪枝技术研究 [J].

张聪品 ;

刘春红 ;

徐久成 .

计算机工程与应用, 2008, (16) :54-55+97

[7] 基于免疫聚类的自动分层强化学习方法研究 [J].

沈晶 ;

顾国昌 ;

刘海波 .

哈尔滨工程大学学报, 2007, (04) :423-428

[8] 基于强化学习的智能机器人避碰方法研究 [J].

张汝波 ;

周宁 ;

顾国昌 ;

张国印 .

机器人, 1999, (03) :45-50

← 1 →