基于Metropolis准则的Q-学习算法研究

被引:13
作者
郭茂祖
王亚东
刘 扬
孙华梅
机构
[1] 哈尔滨工业大学计算机科学与技术学院
[2] 哈尔滨工业大学管理学院
基金
中国博士后科学基金;
关键词
加强学习; Q-学习; Metropolis准则; 探索; 扩张;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降.
引用
收藏
页码:684 / 688
页数:5
相关论文
共 5 条
[1]   加强学习 [J].
郭茂祖 ;
陈彬 ;
王晓龙 ;
洪家荣 .
计算机科学, 1998, (03) :13-15
[2]   将TD方法同神经网络相结合进行时间序列实时建模预测 [J].
杨璐 ;
洪家荣 ;
黄梯云 .
计算机学报, 1996, (09) :695-700
[3]  
Explanation-Based Learning and Reinforcement Learning: A Unified View[J] . Thomas G. Dietterich,Nicholas S. Flann.Machine Learning . 1997 (2)
[4]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
[5]  
Learning to Predict by the Methods of Temporal Differences[J] . Richard S. Sutton.Machine Learning . 1988 (1)