基于平均报酬模型的强化学习算法研究

被引:1
作者
黄炳强 [1 ]
曹广益 [1 ]
费燕琼 [2 ]
王占全 [3 ]
机构
[1] 上海交通大学电子信息与电气工程学院
[2] 上海交通大学机械与动力工程学院
[3] 华东理工大学信息科学与工程学院
关键词
平均报酬强化学习; R学习; H学习; LC学习;
D O I
10.13255/j.cnki.jusst.2006.05.003
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
对于有吸收目标状态的循环任务,比较合理的方法是采用基于平均报酬模型的强化学习.平均报酬模型强化学习具有收敛速度快、鲁棒性强等优点.本文介绍了平均报酬模型强化学习的3个主要算法:R学习、H学习和LC学习,并给出了平均报酬模型强化学习的主要应用及研究方向.
引用
收藏
页码:418 / 422
页数:5
相关论文
共 5 条
[1]   一类基于有效跟踪的广义平均奖赏激励学习算法 [J].
陈焕文 ;
谢建平 .
计算机工程与应用, 2002, (01) :65-68
[2]   机器人足球赛中基于增强学习的任务分工 [J].
顾冬雷 ;
陈卫东 ;
席裕庚 .
机器人, 2000, (06) :482-489
[3]   平均报酬模型的多步强化学习算法 [J].
胡光华 ;
吴沧浦 .
控制理论与应用, 2000, (05) :660-664
[4]   强化学习理论、算法及应用 [J].
张汝波 ;
顾国昌 ;
刘照德 ;
王醒策 .
控制理论与应用, 2000, (05) :637-642
[5]  
Andrew G. Barto,Sridhar Mahadevan.Recent Advances in Hierarchical Reinforcement Learning[J].