强化学习算法中启发式回报函数的设计及其收敛性分析

被引：12

作者：

魏英姿

赵明扬

机构：

[1] 中国科学院沈阳自动化所机器人学重点实验室

来源：

计算机科学 | 2005年 / 03期

关键词：

强化学习; 回报函数; 马尔可夫决策过; 策略; 收效性;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)

引用

收藏

页码：190 / 193

页数：4

相关论文

共 1 条

[1] Q学习算法中网格离散化方法的收敛性分析 [J].

蒋国飞 ;

高慧琪 ;

吴沧浦 .

控制理论与应用, 1999, (02) :194-198