学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一类事件驱动马氏决策过程的Q学习
被引:2
作者
:
王利存
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所!北京
王利存
郑应平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院自动化研究所!北京
郑应平
机构
:
[1]
中国科学院自动化研究所!北京
[2]
同济大学CIMS研究中心!上海
来源
:
系统工程与电子技术
|
2001年
/ 04期
关键词
:
马尔可夫过程;
学习;
算法;
动态规划;
模拟;
D O I
:
暂无
中图分类号
:
TP183 [人工神经网络与计算];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
对广泛存在的一类事件驱动的平均费用型马尔可夫决策问题 ,通过分析其模型特征 ,研究了一种简单的增强型学习算法 ,不必将事件扩充为系统状态 ,而只对原始状态的值函数进行学习 ,减少了计算量和数据存储量。将算法应用于M/M/1排队系统的接纳控制问题 ,计算机仿真结果表明 ,算法优于通常的增强型学习和动态规划方法 ,验证了算法的有效性
引用
收藏
页码:80 / 82+105 +105
页数:4
相关论文
共 2 条
[1]
ASYNCHRONOUS STOCHASTIC-APPROXIMATION AND Q-LEARNING
[J].
TSITSIKLIS, JN
论文数:
0
引用数:
0
h-index:
0
机构:
Laboratory for Information and Decision Systems, Massachusetts Institute of Technology, Cambridge, MA
TSITSIKLIS, JN
.
MACHINE LEARNING,
1994,
16
(03)
:185
-202
[2]
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→
共 2 条
[1]
ASYNCHRONOUS STOCHASTIC-APPROXIMATION AND Q-LEARNING
[J].
TSITSIKLIS, JN
论文数:
0
引用数:
0
h-index:
0
机构:
Laboratory for Information and Decision Systems, Massachusetts Institute of Technology, Cambridge, MA
TSITSIKLIS, JN
.
MACHINE LEARNING,
1994,
16
(03)
:185
-202
[2]
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→