基于SMDP环境的自主生成options算法的研究

被引:8
作者
苏畅
高阳
陈世福
陈兆乾
机构
[1] 南京大学计算机软件新技术国家重点实验室
关键词
TP18;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
$options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法!该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的options.本文首先提出了一种基于访问落差变化率的子目标找寻算法,该算法克服了现有算法的低精确性和部分依赖人为因素的弊病,然后在该算法的基础上,提出了构造options的算法流程,并把这一算法运用于迷宫问题之中。实验结果表明利用实验生成的options可以大大加快学习的效率。
引用
收藏
页码:679 / 684
页数:6
相关论文
共 2 条
[1]  
Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J] . Richard S. Sutton,Doina Precup,Satinder Singh.Artificial Intelligence . 1999 (1)
[2]  
A Heuristic Approach to the Discovery of Macro-Operators[J] . Glenn A. Iba.Machine Learning . 1989 (4)