学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
计算机博弈中估值算法与博弈训练的研究
被引:8
作者
:
吕艳辉
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳理工大学信息科学与工程学院
吕艳辉
论文数:
引用数:
h-index:
机构:
宫瑞敏
机构
:
[1]
沈阳理工大学信息科学与工程学院
来源
:
计算机工程
|
2012年
/ 38卷
/ 11期
关键词
:
计算机博弈;
差分学习;
反向传播神经网络;
估值算法;
增强学习;
博弈训练;
D O I
:
暂无
中图分类号
:
TP18 [人工智能理论];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
计算机博弈程序难以处理局面估值问题。为此,结合时间差分算法和反向传播神经网络,设计一种局面估值算法BP-TD(),实现估值函数参数的自动调整。为提高博弈训练的性能,针对开局和中局,提出分阶段设置参数值的策略。以五子棋为应用背景,实现博弈系统RenjuTD。实验结果表明,该算法可使程序的博弈水平得到较大提高。
引用
收藏
页码:163 / 166
页数:4
相关论文
共 5 条
[1]
面向机器博弈的即时差分学习研究
徐长明
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
徐长明
马宗民
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
马宗民
徐心和
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
徐心和
论文数:
引用数:
h-index:
机构:
李新星
[J].
计算机科学,
2010,
37
(08)
: 219
-
223
[2]
机器博弈研究面临的各种挑战
徐心和
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
徐心和
邓志立
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
邓志立
论文数:
引用数:
h-index:
机构:
王骄
徐长明
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
徐长明
刘纪红
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
刘纪红
马宗民
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
马宗民
[J].
智能系统学报,
2008,
(04)
: 288
-
293
[3]
中国象棋计算机博弈系统评估函数的自适应遗传算法实现
论文数:
引用数:
h-index:
机构:
王骄
论文数:
引用数:
h-index:
机构:
王涛
论文数:
引用数:
h-index:
机构:
罗艳红
徐心和
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
徐心和
[J].
东北大学学报,
2005,
(10)
: 949
-
952
[4]
基于增强学习的计算机博弈策略的研究与实现[D]. 宫瑞敏.沈阳理工大学. 2011
[5]
The Convergence of TD(λ) for General λ[J] . Peter Dayan.Machine Learning . 1992 (3)
←
1
→
共 5 条
[1]
面向机器博弈的即时差分学习研究
徐长明
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
徐长明
马宗民
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
马宗民
徐心和
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
徐心和
论文数:
引用数:
h-index:
机构:
李新星
[J].
计算机科学,
2010,
37
(08)
: 219
-
223
[2]
机器博弈研究面临的各种挑战
徐心和
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
徐心和
邓志立
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
邓志立
论文数:
引用数:
h-index:
机构:
王骄
徐长明
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
徐长明
刘纪红
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
刘纪红
马宗民
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息学院
马宗民
[J].
智能系统学报,
2008,
(04)
: 288
-
293
[3]
中国象棋计算机博弈系统评估函数的自适应遗传算法实现
论文数:
引用数:
h-index:
机构:
王骄
论文数:
引用数:
h-index:
机构:
王涛
论文数:
引用数:
h-index:
机构:
罗艳红
徐心和
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
徐心和
[J].
东北大学学报,
2005,
(10)
: 949
-
952
[4]
基于增强学习的计算机博弈策略的研究与实现[D]. 宫瑞敏.沈阳理工大学. 2011
[5]
The Convergence of TD(λ) for General λ[J] . Peter Dayan.Machine Learning . 1992 (3)
←
1
→