协同设计任务调度的多步Q学习算法

被引:11
作者
陈圣磊
吴慧中
肖亮
朱耀琴
机构
[1] 南京理工大学计算机科学与技术学院
关键词
任务调度; 协同设计; 强化学习; Q学习; 多步Q学习;
D O I
暂无
中图分类号
TP391.72 [];
学科分类号
080201 ; 080203 ; 081304 ; 1403 ;
摘要
首先建立任务调度问题的目标模型,在分析Q学习算法的基础上,给出调度问题的马尔可夫决策过程描述;针对任务调度的Q学习算法更新速度慢的问题,提出一种基于多步信息更新值函数的多步Q学习调度算法.应用实例表明,该算法能够提高收敛速度,有效地解决任务调度问题.
引用
收藏
页码:398 / 402+408 +408
页数:6
相关论文
共 10 条
[1]   一种多步Q强化学习方法 [J].
陈圣磊 ;
吴慧中 ;
韩祥兰 ;
肖亮 .
计算机科学, 2006, (03) :147-150
[2]   用带蚁群搜索的多种群遗传算法求解作业车间调度问题 [J].
蔡良伟 ;
李霞 ;
张基宏 .
信息与控制, 2005, (05) :43-46+56
[3]   实时图案协同设计中冲突问题的研究 [J].
余文芳 ;
姜波 .
计算机辅助设计与图形学学报, 2005, (07) :1588-1592
[4]   并行设计子任务调度的遗传算法原理与实现方法 [J].
殷国富 ;
罗阳 ;
龙红能 ;
成尔京 .
计算机辅助设计与图形学学报, 2004, (08) :1122-1126
[5]   可重入生产系统的平均报酬型强化学习调度 [J].
柳长春 ;
沈志江 ;
于海斌 .
信息与控制, 2004, (02) :145-150
[6]   基于遗传算法的任务分配与调度 [J].
钟求喜 ;
谢涛 ;
陈火旺 .
计算机研究与发展, 2000, (10) :1197-1203
[7]   协同设计技术的研究 [J].
魏宝刚 ;
潘云鹤 .
中国机械工程, 1999, (04) :102-105+7-8
[8]   Distributed reinforcement learning control for batch sequencing and sizing in Just-In-Time manufacturing systems [J].
Hong, JK ;
Prabhu, VV .
APPLIED INTELLIGENCE, 2004, 20 (01) :71-87
[9]  
Technical Note: Q-Learning.[J].Christopher J.C.H. Watkins;Peter Dayan.Machine Learning.1992, 3
[10]  
马尔可夫决策过程引论.[M].胡奇英;刘建庸著;.西安电子科技大学出版社.2000,