一种多步Q强化学习方法

被引:3
作者
陈圣磊
吴慧中
韩祥兰
肖亮
机构
[1] 南京理工大学计算机科学与技术系
关键词
强化学习; MQ 算法; Q 学习; Q(λ)算法;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
Q 学习是一种重要的强化学习算法。本文针对 Q 学习和 Q(λ)算法的不足.提出了一种具有多步预见能力的Q学习方法:MQ 方法。首先给出了 MDP 模型.在分析 Q 学习和Q(λ)算法的基础上给出了 MQ 算法的推导过程,并分析了算法的更新策略和 k 值的确定原则。通过悬崖步行仿真试验验证了该算法的有效性。理论分析和数值试验均表明.该算法具有较强的预见能力.同时能降低计算复杂度,是一种有效平衡更新速度和复杂度的强化学习方法。
引用
收藏
页码:147 / 150
页数:4
相关论文
共 3 条
[1]   多Agent系统中强化学习的研究现状和发展趋势 [J].
赵志宏 ;
高阳 ;
骆斌 ;
陈世福 .
计算机科学, 2004, (03) :23-27
[2]  
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
[3]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)