强化学习算法中启发式回报函数的设计及其收敛性分析

被引:12
作者
魏英姿
赵明扬
机构
[1] 中国科学院沈阳自动化所机器人学重点实验室
关键词
强化学习; 回报函数; 马尔可夫决策过; 策略; 收效性;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
引用
收藏
页码:190 / 193
页数:4
相关论文
共 1 条
[1]   Q学习算法中网格离散化方法的收敛性分析 [J].
蒋国飞 ;
高慧琪 ;
吴沧浦 .
控制理论与应用, 1999, (02) :194-198