多步 R 学习算法(英文)

被引：1

作者：

胡光华

吴沧浦

机构：

[1] 北京理工大学自动控制系!北京

来源：

Journal of Beijing Institute of Technology(English Edition) | 1999年 / 03期

关键词：

强化学习; 平均报酬; R学习; Markov决策过程; 即时差分学习;

D O I：

10.15918/j.jbit1004-0579.1999.03.004

中图分类号：

O232 [最优控制];

学科分类号：

070105 ; 0711 ; 071101 ; 0811 ; 081101 ;

摘要：

目的　讨论平均准则下控制马氏链的强化学习算法，在事先未知状态转移矩阵及报酬函数的条件下，通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略．方法　结合平均报酬问题的一步学习算法和即时差分学习算法，提出了一种多步强化学习算法——— Ｒ（ λ）学习算法．结果与结论　新算法使得已有的Ｒ学习算法成为其λ＝０时的特例．同时它也是折扣报酬Ｑ（λ）学习算法到平均报酬问题的自然推广．仿真结果表明λ取中间值的Ｒ（ λ）学习算法明显优于一步的Ｒ学习算法．

引用

页码：245 / 250

页数：6