一种基于启发式奖赏函数的分层强化学习方法

被引:11
作者
刘全
闫其粹
伏玉琛
胡道京
龚声蓉
机构
[1] 苏州大学计算机科学与技术学院
关键词
分层强化学习; 试错; 启发式奖赏函数; 俄罗斯方块; “维数灾”;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对强化学习在应用中经常出现的"维数灾"问题,即状态空间的大小随着特征数量的增加而发生指数级的增长,以及收敛速度过慢的问题,提出了一种基于启发式奖赏函数的分层强化学习方法.该方法不仅能够大幅度减少环境状态空间,还能加快学习的收敛速度.将此算法应用到俄罗斯方块的仿真平台中,通过对实验中的参数进行设置及对算法性能进行分析,结果表明:采用启发式奖赏函数的分层强化学习方法能在一定程度上解决"维数灾"问题,并具有很好的收敛速度.
引用
收藏
页码:2352 / 2358
页数:7
相关论文
共 6 条
[1]   一种基于启发式轮廓表的逻辑强化学习方法 [J].
刘全 ;
高阳 ;
陈道蓄 ;
孙吉贵 ;
姚望舒 .
计算机研究与发展, 2008, (11) :1824-1830
[2]   基于SMDP环境的自主生成options算法的研究 [J].
苏畅 ;
高阳 ;
陈世福 ;
陈兆乾 .
模式识别与人工智能, 2005, 18 (06) :679-684
[3]   强化学习算法中启发式回报函数的设计及其收敛性分析 [J].
魏英姿 ;
赵明扬 .
计算机科学, 2005, (03) :190-193
[4]   Transfer in variable-reward hierarchical reinforcement learning [J].
Mehta, Neville ;
Natarajan, Sriraam ;
Tadepalli, Prasad ;
Fern, Alan .
MACHINE LEARNING, 2008, 73 (03) :289-312
[5]  
Recent Advances in Hierarchical Reinforcement Learning[J] . Andrew G. Barto,Sridhar Mahadevan.Discrete Event Dynamic Systems . 2003 (1)
[6]  
Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J] . Richard S. Sutton,Doina Precup,Satinder Singh.Artificial Intelligence . 1999 (1)