基于Metropolis准则的Q-学习算法研究

被引：13

作者：

郭茂祖

王亚东

刘扬

孙华梅

机构：

[1] 哈尔滨工业大学计算机科学与技术学院

[2] 哈尔滨工业大学管理学院

来源：

计算机研究与发展 | 2002年 / 06期

基金：

中国博士后科学基金;

关键词：

加强学习; Q-学习; Metropolis准则; 探索; 扩张;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

摘要：

探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降.

引用

页码：684 / 688

页数：5

共 5 条

[1] 加强学习 [J].