学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于平均报酬模型的强化学习算法研究
被引:1
作者
:
黄炳强
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息与电气工程学院
上海交通大学电子信息与电气工程学院
黄炳强
[
1
]
曹广益
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息与电气工程学院
上海交通大学电子信息与电气工程学院
曹广益
[
1
]
论文数:
引用数:
h-index:
机构:
费燕琼
[
2
]
王占全
论文数:
0
引用数:
0
h-index:
0
机构:
华东理工大学信息科学与工程学院
上海交通大学电子信息与电气工程学院
王占全
[
3
]
机构
:
[1]
上海交通大学电子信息与电气工程学院
[2]
上海交通大学机械与动力工程学院
[3]
华东理工大学信息科学与工程学院
来源
:
上海理工大学学报
|
2006年
/ 05期
关键词
:
平均报酬强化学习;
R学习;
H学习;
LC学习;
D O I
:
10.13255/j.cnki.jusst.2006.05.003
中图分类号
:
TP181 [自动推理、机器学习];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向.
引用
收藏
页码:418 / 422
页数:5
相关论文
共 5 条
[1]
一类基于有效跟踪的广义平均奖赏激励学习算法
[J].
陈焕文
论文数:
0
引用数:
0
h-index:
0
机构:
长沙电力学院数学与计算机系
陈焕文
;
谢建平
论文数:
0
引用数:
0
h-index:
0
机构:
长沙电力学院数学与计算机系
谢建平
.
计算机工程与应用,
2002,
(01)
:65
-68
[2]
机器人足球赛中基于增强学习的任务分工
[J].
论文数:
引用数:
h-index:
机构:
顾冬雷
;
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所!上海
陈卫东
;
席裕庚
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所!上海
席裕庚
.
机器人,
2000,
(06)
:482
-489
[3]
平均报酬模型的多步强化学习算法
[J].
胡光华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学自动控制系!北京
胡光华
;
吴沧浦
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学自动控制系!北京
吴沧浦
.
控制理论与应用,
2000,
(05)
:660
-664
[4]
强化学习理论、算法及应用
[J].
论文数:
引用数:
h-index:
机构:
张汝波
;
顾国昌
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
顾国昌
;
刘照德
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
刘照德
;
王醒策
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
王醒策
.
控制理论与应用,
2000,
(05)
:637
-642
[5]
Andrew G. Barto,Sridhar Mahadevan.Recent Advances in Hierarchical Reinforcement Learning[J].
←
1
→
共 5 条
[1]
一类基于有效跟踪的广义平均奖赏激励学习算法
[J].
陈焕文
论文数:
0
引用数:
0
h-index:
0
机构:
长沙电力学院数学与计算机系
陈焕文
;
谢建平
论文数:
0
引用数:
0
h-index:
0
机构:
长沙电力学院数学与计算机系
谢建平
.
计算机工程与应用,
2002,
(01)
:65
-68
[2]
机器人足球赛中基于增强学习的任务分工
[J].
论文数:
引用数:
h-index:
机构:
顾冬雷
;
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所!上海
陈卫东
;
席裕庚
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所!上海
席裕庚
.
机器人,
2000,
(06)
:482
-489
[3]
平均报酬模型的多步强化学习算法
[J].
胡光华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学自动控制系!北京
胡光华
;
吴沧浦
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学自动控制系!北京
吴沧浦
.
控制理论与应用,
2000,
(05)
:660
-664
[4]
强化学习理论、算法及应用
[J].
论文数:
引用数:
h-index:
机构:
张汝波
;
顾国昌
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
顾国昌
;
刘照德
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
刘照德
;
王醒策
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
王醒策
.
控制理论与应用,
2000,
(05)
:637
-642
[5]
Andrew G. Barto,Sridhar Mahadevan.Recent Advances in Hierarchical Reinforcement Learning[J].
←
1
→