动态环境中的分层强化学习

被引：4

作者：

沈晶

程晓北

刘海波

顾国昌

张国印

机构：

[1] 哈尔滨工程大学计算机科学与技术学院

来源：

控制理论与应用 | 2008年 / 01期

关键词：

分层强化学习; 动态环境; Option; 策略更新;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低.

引用

页码：71 / 74

页数：4

共 4 条

[1] 强化学习研究综述 [J].

高阳 ;

陈世福 ;

陆鑫 .

自动化学报, 2004, (01) :86-100

[2]

Recent Advances in Hierarchical Reinforcement Learning[J] . Andrew G. Barto,Sridhar Mahadevan.Discrete Event Dynamic Systems . 2003 (1)

[3]

Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J] . Richard S. Sutton,Doina Precup,Satinder Singh.Artificial Intelligence . 1999 (1)

[4]

Self-Improving Reactive Agents Based on Reinforcement Learning, Planning and Teaching[J] . Long-Ji Lin.Machine Learning . 1992 (3)

← 1 →