最小状态变元平均奖赏的强化学习方法

被引:15
作者
刘全 [1 ,2 ]
傅启明 [1 ]
龚声蓉 [1 ]
伏玉琛 [1 ]
崔志明 [1 ]
机构
[1] 苏州大学计算机科学与技术学院
[2] 南京大学软件新技术国家重点实验室
关键词
强化学习; 平均奖赏; 俄罗斯方块; 最小状态;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。
引用
收藏
页码:66 / 71
页数:6
相关论文
共 7 条
[1]   平均奖赏强化学习算法研究 [J].
高阳 ;
周如益 ;
王皓 ;
曹志新 .
计算机学报, 2007, (08) :1372-1378
[2]   分层强化学习研究综述 [J].
沈晶 ;
顾国昌 ;
刘海波 .
模式识别与人工智能, 2005, 18 (05) :574-581
[3]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[4]   Transfer in variable-reward hierarchical reinforcement learning [J].
Mehta, Neville ;
Natarajan, Sriraam ;
Tadepalli, Prasad ;
Fern, Alan .
MACHINE LEARNING, 2008, 73 (03) :289-312
[5]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
[6]  
Adaptation technique for integrating genetic pro-gramming and reinforcement learning for real robots. KAMIO,IBA H. IEEE Trans-actions on Evolutionary Computation . 2005
[7]  
Reinforcement learning for long-run average cost. Gosavi Abhijit. European Journal of Operational Research . 2004