基于SMDP环境的自主生成options算法的研究

被引：8

作者：

苏畅

高阳

陈世福

陈兆乾

机构：

[1] 南京大学计算机软件新技术国家重点实验室

来源：

模式识别与人工智能 | 2005年 / 18卷 / 06期

关键词：

TP18;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

$options是一种与SMDP模型紧密相关的引入时间抽象的强化学习算法!该算法一个重要且仍待解决的问题是如何能使agent自主找到合适的options.本文首先提出了一种基于访问落差变化率的子目标找寻算法,该算法克服了现有算法的低精确性和部分依赖人为因素的弊病,然后在该算法的基础上,提出了构造options的算法流程,并把这一算法运用于迷宫问题之中。实验结果表明利用实验生成的options可以大大加快学习的效率。

引用

页码：679 / 684

页数：6