学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
强化学习系统及其基于可靠度最优的学习算法
被引:3
作者
:
论文数:
引用数:
h-index:
机构:
俞星星
论文数:
引用数:
h-index:
机构:
阎平凡
机构
:
[1]
清华大学自动化系
来源
:
信息与控制
|
1997年
/ 05期
基金
:
国家攀登计划;
关键词
:
强化学习,首达时间,可靠度;
D O I
:
10.13976/j.cnki.xk.1997.05.003
中图分类号
:
TP301.6 [算法理论];
学科分类号
:
081202 ;
摘要
:
归纳了强化学习的主要理论方法,提出了一个区分主客观因素的强化学习系统描述,引入了任务域的概念.针对以往强化学习采用的期望最优准则描述任务域能力的不足,考虑了目标水平准则下的首达时间可靠度最优准则模型.分别结合随机逼近理论和时间差分理论,提出了基于概率估计的J-学习和无需建模的增量R-学习
引用
收藏
页码:13 / 20
页数:8
相关论文
未找到相关数据
未找到相关数据