强化学习的模型、算法及应用

被引:9
作者
战忠丽
王强
陈显亭
机构
[1] 吉林电子信息职业技术学院计算机系
关键词
强化学习; Sarsa算法; 瞬时差分算法; Q-学习算法; 函数估计;
D O I
10.16180/j.cnki.issn1007-7820.2011.01.035
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa算法、TD算法、Q-学习算法及函数估计算法,最后介绍了强化学习的应用情况及未来研究方向。
引用
收藏
页码:47 / 49
页数:3
相关论文
共 2 条
[1]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
[2]  
Learning to predict by the methods of temporal differences[J] . Richard S. Sutton.Machine Learning . 1988 (1)