计算机博弈中估值算法与博弈训练的研究

被引：8

作者：

吕艳辉

宫瑞敏

机构：

[1] 沈阳理工大学信息科学与工程学院

来源：

计算机工程 | 2012年 / 38卷 / 11期

关键词：

计算机博弈; 差分学习; 反向传播神经网络; 估值算法; 增强学习; 博弈训练;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

计算机博弈程序难以处理局面估值问题。为此,结合时间差分算法和反向传播神经网络,设计一种局面估值算法BP-TD(),实现估值函数参数的自动调整。为提高博弈训练的性能,针对开局和中局,提出分阶段设置参数值的策略。以五子棋为应用背景,实现博弈系统RenjuTD。实验结果表明,该算法可使程序的博弈水平得到较大提高。

引用

页码：163 / 166

页数：4

共 5 条

[1] 面向机器博弈的即时差分学习研究
徐长明
马宗民
徐心和
李新星
[J]. 计算机科学, 2010, 37 (08) : 219 - 223
[2] 机器博弈研究面临的各种挑战
徐心和
邓志立
王骄
徐长明
刘纪红
马宗民
[J]. 智能系统学报, 2008, (04) : 288 - 293
[3] 中国象棋计算机博弈系统评估函数的自适应遗传算法实现
王骄
王涛
罗艳红
徐心和
[J]. 东北大学学报, 2005, (10) : 949 - 952
[4] 基于增强学习的计算机博弈策略的研究与实现[D]. 宫瑞敏.沈阳理工大学. 2011
[5] The Convergence of TD(λ) for General λ[J] . Peter Dayan.Machine Learning . 1992 (3)

← 1 →