一类基于有效跟踪的广义平均奖赏激励学习算法

被引:1
作者
陈焕文
谢建平
机构
[1] 长沙电力学院数学与计算机系
[2] 长沙交通学院网络中心 长沙
[3] 长沙
关键词
激励学习; Markov决策过程; 平均奖赏; 有效跟踪;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。
引用
收藏
页码:65 / 68
页数:4
相关论文
共 1 条
[1]  
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)