学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
加强学习主要算法的比较研究
被引:13
作者
:
论文数:
引用数:
h-index:
机构:
郭茂祖
论文数:
引用数:
h-index:
机构:
刘扬
论文数:
引用数:
h-index:
机构:
黄梯云
机构
:
[1]
哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学计算机科学与技术学院,哈尔滨工业大学管理学院哈尔滨,哈尔滨,哈尔滨
来源
:
计算机工程与应用
|
2001年
/ 21期
关键词
:
加强学习;
动态规划;
蒙特卡罗算法;
时序差分算法;
Q-学习;
D O I
:
暂无
中图分类号
:
TP183 [人工神经网络与计算];
学科分类号
:
140502
[人工智能]
;
摘要
:
文章介绍了加强学习模型,分别给出了加强学习的四个主要算法:动态规划、蒙特卡罗算法、时序差分算法、Q-学习,并指出了它们之间的区别和联系。最后给出加强学习的两个应用以及今后的研究方向。
引用
收藏
页码:16 / 18+48 +48
页数:4
相关论文
共 1 条
[1]
Reinforcement learning with replacing eligibility traces.[J].Satinder P. Singh;Richard S. Sutton.Machine Learning.1996, 1
←
1
→
共 1 条
[1]
Reinforcement learning with replacing eligibility traces.[J].Satinder P. Singh;Richard S. Sutton.Machine Learning.1996, 1
←
1
→