协同设计任务调度的多步Q学习算法

被引：11

作者：

陈圣磊

吴慧中

肖亮

朱耀琴

机构：

[1] 南京理工大学计算机科学与技术学院

来源：

计算机辅助设计与图形学学报 | 2007年 / 03期

关键词：

任务调度; 协同设计; 强化学习; Q学习; 多步Q学习;

D O I：

暂无

中图分类号：

TP391.72 [];

学科分类号：

080201 ; 080203 ; 081304 ; 1403 ;

摘要：

首先建立任务调度问题的目标模型,在分析Q学习算法的基础上,给出调度问题的马尔可夫决策过程描述;针对任务调度的Q学习算法更新速度慢的问题,提出一种基于多步信息更新值函数的多步Q学习调度算法.应用实例表明,该算法能够提高收敛速度,有效地解决任务调度问题.

引用

页码：398 / 402+408 +408

页数：6

共 10 条

[1] 一种多步Q强化学习方法 [J].

陈圣磊 ;

吴慧中 ;

韩祥兰 ;

肖亮 .

计算机科学, 2006, (03) :147-150

[2] 用带蚁群搜索的多种群遗传算法求解作业车间调度问题 [J].

蔡良伟 ;

李霞 ;

张基宏 .

信息与控制, 2005, (05) :43-46+56

[3] 实时图案协同设计中冲突问题的研究 [J].

余文芳 ;

姜波 .

计算机辅助设计与图形学学报, 2005, (07) :1588-1592

[4] 并行设计子任务调度的遗传算法原理与实现方法 [J].

殷国富 ;

罗阳 ;

龙红能 ;

成尔京 .

计算机辅助设计与图形学学报, 2004, (08) :1122-1126

[5] 可重入生产系统的平均报酬型强化学习调度 [J].

柳长春 ;

沈志江 ;

于海斌 .

信息与控制, 2004, (02) :145-150

[6] 基于遗传算法的任务分配与调度 [J].

钟求喜 ;

谢涛 ;

陈火旺 .

计算机研究与发展, 2000, (10) :1197-1203

[7] 协同设计技术的研究 [J].

魏宝刚 ;

潘云鹤 .

中国机械工程, 1999, (04) :102-105+7-8

[8] Distributed reinforcement learning control for batch sequencing and sizing in Just-In-Time manufacturing systems [J].

Hong, JK ;

Prabhu, VV .

APPLIED INTELLIGENCE, 2004, 20 (01) :71-87

[9]

Technical Note: Q-Learning.[J].Christopher J.C.H. Watkins;Peter Dayan.Machine Learning.1992, 3

[10]

马尔可夫决策过程引论.[M].胡奇英;刘建庸著;.西安电子科技大学出版社.2000,

← 1 →