强化学习系统及其基于可靠度最优的学习算法

被引：3

作者：

俞星星

阎平凡

机构：

[1] 清华大学自动化系

来源：

信息与控制 | 1997年 / 05期

基金：

国家攀登计划;

关键词：

强化学习，首达时间，可靠度;

D O I：

10.13976/j.cnki.xk.1997.05.003

中图分类号：

TP301.6 [算法理论];

学科分类号：

081202 ;

摘要：

归纳了强化学习的主要理论方法，提出了一个区分主客观因素的强化学习系统描述，引入了任务域的概念．针对以往强化学习采用的期望最优准则描述任务域能力的不足，考虑了目标水平准则下的首达时间可靠度最优准则模型．分别结合随机逼近理论和时间差分理论，提出了基于概率估计的Ｊ－学习和无需建模的增量Ｒ－学习

引用

收藏

页码：13 / 20

页数：8

相关论文

empty

未找到相关数据