最小状态变元平均奖赏的强化学习方法

被引：15

作者：

刘全 ^{[1
,2
]}

傅启明 ^{[1
]}

龚声蓉 ^{[1
]}

伏玉琛 ^{[1
]}

崔志明 ^{[1
]}

机构：

[1] 苏州大学计算机科学与技术学院

[2] 南京大学软件新技术国家重点实验室

来源：

通信学报 | 2011年 / 32卷 / 01期

关键词：

强化学习; 平均奖赏; 俄罗斯方块; 最小状态;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。

引用

页码：66 / 71

页数：6

共 7 条

[1] 平均奖赏强化学习算法研究 [J].

高阳 ;

周如益 ;

王皓 ;

曹志新 .

计算机学报, 2007, (08) :1372-1378

[2] 分层强化学习研究综述 [J].

沈晶 ;

顾国昌 ;

刘海波 .

模式识别与人工智能, 2005, 18 (05) :574-581

[3] 强化学习研究综述 [J].

高阳 ;

陈世福 ;

陆鑫 .

自动化学报, 2004, (01) :86-100

[4] Transfer in variable-reward hierarchical reinforcement learning [J].

Mehta, Neville ;

Natarajan, Sriraam ;

Tadepalli, Prasad ;

Fern, Alan .

MACHINE LEARNING, 2008, 73 (03) :289-312

[5]

Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)

[6]

Adaptation technique for integrating genetic pro-gramming and reinforcement learning for real robots. KAMIO,IBA H. IEEE Trans-actions on Evolutionary Computation . 2005

[7]

Reinforcement learning for long-run average cost. Gosavi Abhijit. European Journal of Operational Research . 2004

← 1 →