学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一类基于有效跟踪的广义平均奖赏激励学习算法
被引:1
作者
:
陈焕文
论文数:
0
引用数:
0
h-index:
0
机构:
长沙电力学院数学与计算机系
陈焕文
谢建平
论文数:
0
引用数:
0
h-index:
0
机构:
长沙电力学院数学与计算机系
谢建平
机构
:
[1]
长沙电力学院数学与计算机系
[2]
长沙交通学院网络中心 长沙
[3]
长沙
来源
:
计算机工程与应用
|
2002年
/ 01期
关键词
:
激励学习;
Markov决策过程;
平均奖赏;
有效跟踪;
D O I
:
暂无
中图分类号
:
TP181 [自动推理、机器学习];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。
引用
收藏
页码:65 / 68
页数:4
相关论文
共 1 条
[1]
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
←
1
→
共 1 条
[1]
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
←
1
→