计算机博弈中估值算法与博弈训练的研究

被引:8
作者
吕艳辉
宫瑞敏
机构
[1] 沈阳理工大学信息科学与工程学院
关键词
计算机博弈; 差分学习; 反向传播神经网络; 估值算法; 增强学习; 博弈训练;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
计算机博弈程序难以处理局面估值问题。为此,结合时间差分算法和反向传播神经网络,设计一种局面估值算法BP-TD(),实现估值函数参数的自动调整。为提高博弈训练的性能,针对开局和中局,提出分阶段设置参数值的策略。以五子棋为应用背景,实现博弈系统RenjuTD。实验结果表明,该算法可使程序的博弈水平得到较大提高。
引用
收藏
页码:163 / 166
页数:4
相关论文
共 5 条
  • [1] 面向机器博弈的即时差分学习研究
    徐长明
    马宗民
    徐心和
    李新星
    [J]. 计算机科学, 2010, 37 (08) : 219 - 223
  • [2] 机器博弈研究面临的各种挑战
    徐心和
    邓志立
    王骄
    徐长明
    刘纪红
    马宗民
    [J]. 智能系统学报, 2008, (04) : 288 - 293
  • [3] 中国象棋计算机博弈系统评估函数的自适应遗传算法实现
    王骄
    王涛
    罗艳红
    徐心和
    [J]. 东北大学学报, 2005, (10) : 949 - 952
  • [4] 基于增强学习的计算机博弈策略的研究与实现[D]. 宫瑞敏.沈阳理工大学. 2011
  • [5] The Convergence of TD(λ) for General λ[J] . Peter Dayan.Machine Learning . 1992 (3)