多步 R 学习算法(英文)

被引:1
作者
胡光华
吴沧浦
机构
[1] 北京理工大学自动控制系!北京
关键词
强化学习; 平均报酬; R学习; Markov决策过程; 即时差分学习;
D O I
10.15918/j.jbit1004-0579.1999.03.004
中图分类号
O232 [最优控制];
学科分类号
070105 ; 0711 ; 071101 ; 0811 ; 081101 ;
摘要
目的 讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略. 方法 结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法——— R( λ) 学习算法. 结果与结论 新算法使得已有的 R 学习算法成为其λ= 0 时的特例. 同时它也是折扣报酬 Q(λ) 学习算法到平均报酬问题的自然推广. 仿真结果表明λ取中间值的 R( λ) 学习算法明显优于一步的 R 学习算法.
引用
收藏
页码:245 / 250
页数:6
相关论文
共 1 条
[1]  
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)