一种基于启发式奖赏函数的分层强化学习方法

被引：11

作者：

刘全

闫其粹

伏玉琛

胡道京

龚声蓉

机构：

[1] 苏州大学计算机科学与技术学院

来源：

计算机研究与发展 | 2011年 / 48卷 / 12期

关键词：

分层强化学习; 试错; 启发式奖赏函数; 俄罗斯方块; “维数灾”;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度.

引用

页码：2352 / 2358

页数：7

共 6 条

[1] 一种基于启发式轮廓表的逻辑强化学习方法 [J].

刘全 ;

高阳 ;

陈道蓄 ;

孙吉贵 ;

姚望舒 .

计算机研究与发展, 2008, (11) :1824-1830

[2] 基于SMDP环境的自主生成options算法的研究 [J].

苏畅 ;

高阳 ;

陈世福 ;

陈兆乾 .

模式识别与人工智能, 2005, 18 (06) :679-684

[3] 强化学习算法中启发式回报函数的设计及其收敛性分析 [J].

魏英姿 ;

赵明扬 .

计算机科学, 2005, (03) :190-193

[4] Transfer in variable-reward hierarchical reinforcement learning [J].

Mehta, Neville ;

Natarajan, Sriraam ;

Tadepalli, Prasad ;

Fern, Alan .

MACHINE LEARNING, 2008, 73 (03) :289-312

[5]

Recent Advances in Hierarchical Reinforcement Learning[J] . Andrew G. Barto,Sridhar Mahadevan.Discrete Event Dynamic Systems . 2003 (1)

[6]

Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J] . Richard S. Sutton,Doina Precup,Satinder Singh.Artificial Intelligence . 1999 (1)

← 1 →