一类事件驱动马氏决策过程的Q学习

被引：2

作者：

王利存

郑应平

机构：

[1] 中国科学院自动化研究所!北京

[2] 同济大学CIMS研究中心!上海

来源：

系统工程与电子技术 | 2001年 / 04期

关键词：

马尔可夫过程; 学习; 算法; 动态规划; 模拟;

D O I：

暂无

中图分类号：

TP183 [人工神经网络与计算];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

对广泛存在的一类事件驱动的平均费用型马尔可夫决策问题 ,通过分析其模型特征 ,研究了一种简单的增强型学习算法 ,不必将事件扩充为系统状态 ,而只对原始状态的值函数进行学习 ,减少了计算量和数据存储量。将算法应用于M/M/1排队系统的接纳控制问题 ,计算机仿真结果表明 ,算法优于通常的增强型学习和动态规划方法 ,验证了算法的有效性

引用

页码：80 / 82+105 +105

页数：4