学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
多步 R 学习算法(英文)
被引:1
作者
:
胡光华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学自动控制系!北京
胡光华
吴沧浦
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学自动控制系!北京
吴沧浦
机构
:
[1]
北京理工大学自动控制系!北京
来源
:
Journal of Beijing Institute of Technology(English Edition)
|
1999年
/ 03期
关键词
:
强化学习;
平均报酬;
R学习;
Markov决策过程;
即时差分学习;
D O I
:
10.15918/j.jbit1004-0579.1999.03.004
中图分类号
:
O232 [最优控制];
学科分类号
:
070105 ;
0711 ;
071101 ;
0811 ;
081101 ;
摘要
:
目的 讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略. 方法 结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法——— R( λ) 学习算法. 结果与结论 新算法使得已有的 R 学习算法成为其λ= 0 时的特例. 同时它也是折扣报酬 Q(λ) 学习算法到平均报酬问题的自然推广. 仿真结果表明λ取中间值的 R( λ) 学习算法明显优于一步的 R 学习算法.
引用
收藏
页码:245 / 250
页数:6
相关论文
共 1 条
[1]
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
←
1
→
共 1 条
[1]
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
←
1
→