基于聚类状态隶属度的动态调度Q-学习

被引:8
作者
王国磊
钟诗胜
林琳
机构
[1] 哈尔滨工业大学机电工程学院
关键词
动态调度; Q-学习; 调度规则选择; 状态聚类; 隶属度;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种利用Q-学习解决动态单机调度环境下的自适应调度规则选择的方法。该方法针对动态调度环境中系统状态空间大,Q-学习不易收敛的特点,首先提取系统状态特征,对系统状态进行合理聚类,有效地降低系统状态空间维数,然后在学习过程中令设备Agent根据瞬时状态向量对各聚类状态的隶属度做出综合判断,选择合适规则,并在每次迭代后根据隶属度将动作奖惩分配给各聚类状态的动作值函数。仿真结果表明,所提Q-学习算法较之传统Q-学习具有更快的收敛速度,提高了设备Agent的动态调度规则选择能力。
引用
收藏
页码:428 / 433
页数:6
相关论文
共 7 条
[1]   知识化制造系统中动态调度的自适应策略研究 [J].
杨宏兵 ;
严洪森 .
控制与决策 , 2007, (12) :1335-1340+1346
[2]   基于Q-学习的动态单机调度 [J].
王世进 ;
孙晟 ;
周炳海 ;
奚立峰 .
上海交通大学学报, 2007, (08) :1227-1232+1243
[3]   多智能体系统中具有先验知识的Q学习算法 [J].
杜春侠 ;
高云 ;
张文 .
清华大学学报(自然科学版), 2005, (07) :981-984
[4]   复杂环境中的多智能体强化学习 [J].
罗青 ;
李智军 ;
吕恬生 .
上海交通大学学报, 2002, (03) :302-305
[5]   Learning policies for single machine job dispatching [J].
Wang, YC ;
Usher, JM .
ROBOTICS AND COMPUTER-INTEGRATED MANUFACTURING, 2004, 20 (06) :553-562
[6]  
Dynamic job-shop scheduling using reinforcement learning agents[J] . Robotics and Autonomous Systems . 2000 (2)
[7]  
Q -learning[J] . Christopher J. C. H. Watkins,Peter Dayan.Machine Learning . 1992 (3)