一类事件驱动马氏决策过程的Q学习

被引:2
作者
王利存
郑应平
机构
[1] 中国科学院自动化研究所!北京
[2] 同济大学CIMS研究中心!上海
关键词
马尔可夫过程; 学习; 算法; 动态规划; 模拟;
D O I
暂无
中图分类号
TP183 [人工神经网络与计算];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
对广泛存在的一类事件驱动的平均费用型马尔可夫决策问题 ,通过分析其模型特征 ,研究了一种简单的增强型学习算法 ,不必将事件扩充为系统状态 ,而只对原始状态的值函数进行学习 ,减少了计算量和数据存储量。将算法应用于M/M/1排队系统的接纳控制问题 ,计算机仿真结果表明 ,算法优于通常的增强型学习和动态规划方法 ,验证了算法的有效性
引用
收藏
页码:80 / 82+105 +105
页数:4
相关论文
共 2 条
[1]   ASYNCHRONOUS STOCHASTIC-APPROXIMATION AND Q-LEARNING [J].
TSITSIKLIS, JN .
MACHINE LEARNING, 1994, 16 (03) :185-202
[2]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)