加强学习主要算法的比较研究

被引:13
作者
郭茂祖
刘扬
黄梯云
机构
[1] 哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学管理学院哈尔滨,哈尔滨,哈尔滨
关键词
加强学习; 动态规划; 蒙特卡罗算法; 时序差分算法; Q-学习;
D O I
暂无
中图分类号
TP183 [人工神经网络与计算];
学科分类号
140502 [人工智能];
摘要
文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出加强学习的两个应用以及今后的研究方向。
引用
收藏
页码:16 / 18+48 +48
页数:4
相关论文
共 1 条
[1]
Reinforcement learning with replacing eligibility traces.[J].Satinder P. Singh;Richard S. Sutton.Machine Learning.1996, 1