可重入生产系统的平均报酬型强化学习调度

被引：5

作者：

柳长春

沈志江

于海斌

机构：

[1] 中国科学院沈阳自动化研究所

来源：

关键词：

平均报酬型强化学习; 可重入系统; 调度; 暂态差分;

D O I：

10.13976/j.cnki.xk.2004.02.005

中图分类号：

F224 [经济数学方法];

学科分类号：

0701 ; 070104 ;

摘要：

在可重入生产系统中 ,一个重要的问题就是对调度策略进行优化 ,以提高系统平均输出率 .本文采用了一种平均报酬型强化学习算法来解决该问题 ,直接从所关心的系统品质出发 ,自动获得具有自适应性的动态调度策略 .仿真结果表明 ,其性能优于两种熟知的优先权调度策略 .

引用

页码：145 / 150

页数：6