强化学习系统及其基于可靠度最优的学习算法

被引:3
作者
俞星星
阎平凡
机构
[1] 清华大学自动化系
基金
国家攀登计划;
关键词
强化学习,首达时间,可靠度;
D O I
10.13976/j.cnki.xk.1997.05.003
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
归纳了强化学习的主要理论方法,提出了一个区分主客观因素的强化学习系统描述,引入了任务域的概念.针对以往强化学习采用的期望最优准则描述任务域能力的不足,考虑了目标水平准则下的首达时间可靠度最优准则模型.分别结合随机逼近理论和时间差分理论,提出了基于概率估计的J-学习和无需建模的增量R-学习
引用
收藏
页码:13 / 20
页数:8
相关论文
empty
未找到相关数据