基于ISE算法的分布式ETL任务调度策略研究

被引:11
作者
王卓昊 [1 ]
杨冬菊 [2 ,3 ]
徐晨阳 [1 ]
机构
[1] 中国科学技术信息研究所
[2] 大规模流数据集成与分析技术北京市重点实验室
[3] 北方工业大学数据工程研究院
基金
国家自然科学基金重点项目;
关键词
任务调度; 负载均衡; 动态分配; 分布式集群; ETL; 数据集成;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随着数据仓库的规模不断扩大,数据集成下的ETL(Extraction-Transformation-Loading)任务也随之增多,单机调度显然已经不能满足当下繁多复杂的ETL任务调度。针对ETL任务调度如何提高效率、缩短关键任务等待时间、提升资源利用率等问题,构建了一套分布式ETL任务调度框架,该框架由调度器和若干执行器组成,通过任务预处理、任务调度分配、任务执行3个阶段来完成ETL任务调度。在任务预处理阶段,对ETL任务建立权重模型,并根据权重确定调度优先级。在任务调度分配阶段,调度器根据各个执行器节点的性能及负载情况来约束执行器节点的选择,并设计贪心平衡(Greedy Balance,GB)算法来进行ETL任务执行请求的分发,使执行器节点的负载相对均衡。在任务执行阶段,通过高响应比优先(Highest Response Ratio Next,HRRN)算法确定执行器节点队列下任务的执行优先级。实验结果表明,分布式ETL任务调度框架及相应的一体化调度执行(Integrated Scheduling Execution,ISE)算法能够有效提高集群资源的利用率,缩短任务调度的执行时间。
引用
收藏
页码:1 / 7
页数:7
相关论文
共 3 条
[1]   一种改进的优先级列表任务调度算法 [J].
李静梅 ;
王雪 ;
吴艳霞 .
计算机科学, 2014, 41 (05) :20-23+36
[2]   A hybrid heuristic workflow scheduling algorithm for cloud computing environments [J].
Mirzayi, Sahar ;
Rafe, Vahid .
JOURNAL OF EXPERIMENTAL & THEORETICAL ARTIFICIAL INTELLIGENCE, 2015, 27 (06) :721-735
[3]   The Quicksort process [J].
Ragab, Mahmoud ;
Roesler, Uwe .
STOCHASTIC PROCESSES AND THEIR APPLICATIONS, 2014, 124 (02) :1036-1054