平均报酬模型的多步强化学习算法

被引：4

作者：

胡光华

吴沧浦

机构：

[1] 北京理工大学自动控制系!北京

来源：

控制理论与应用 | 2000年 / 05期

关键词：

强化学习; 即时差分学习; 马氏决策过程; R学习;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

讨论模型未知的平均报酬强化学习算法 .通过结合即时差分学习与R学习算法 ,将折扣问题中的一些方法推广到了平均准则问题中 ,提出了两类算法 :R(λ)学习与截断即时差分TTD(λ)学习 .现有的R学习可视为R(λ)学习和TTD(λ)学习当λ=0时的一个特例 .仿真结果表明 ,λ取中间值的R(λ)和TTD(λ)学习比现有的方法在可靠性与收敛速度上均有提高 .

引用

页码：660 / 664

页数：5