一类基于有效跟踪的广义平均奖赏激励学习算法

被引：1

作者：

陈焕文

谢建平

机构：

[1] 长沙电力学院数学与计算机系

[2] 长沙交通学院网络中心长沙

[3] 长沙

来源：

关键词：

激励学习; Markov决策过程; 平均奖赏; 有效跟踪;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。

引用

页码：65 / 68

页数：4