平均报酬模型的多步强化学习算法

被引:4
作者
胡光华
吴沧浦
机构
[1] 北京理工大学自动控制系!北京
关键词
强化学习; 即时差分学习; 马氏决策过程; R学习;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 .
引用
收藏
页码:660 / 664
页数:5
相关论文
共 2 条
[1]  
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
[2]  
Learning to predict by the methods of temporal differences[J] . Richard S. Sutton.Machine Learning . 1988 (1)