加强学习主要算法的比较研究

被引：13

作者：

郭茂祖

刘扬

黄梯云

机构：

[1] 哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学管理学院哈尔滨,哈尔滨,哈尔滨

来源：

关键词：

加强学习; 动态规划; 蒙特卡罗算法; 时序差分算法; Q-学习;

D O I：

暂无

中图分类号：

TP183 [人工神经网络与计算];

学科分类号：

140502 [人工智能];

摘要：

文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出加强学习的两个应用以及今后的研究方向。

引用

页码：16 / 18+48 +48

页数：4