可重入生产系统的平均报酬型强化学习调度

被引:5
作者
柳长春
沈志江
于海斌
机构
[1] 中国科学院沈阳自动化研究所
关键词
平均报酬型强化学习; 可重入系统; 调度; 暂态差分;
D O I
10.13976/j.cnki.xk.2004.02.005
中图分类号
F224 [经济数学方法];
学科分类号
0701 ; 070104 ;
摘要
在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优于两种熟知的优先权调度策略 .
引用
收藏
页码:145 / 150
页数:6
相关论文
共 1 条
[1]  
Re-entrant lines[J] . P. R. Kumar.Queueing Systems . 1993 (1)