基于Hadoop的调度算法研究与实现

被引:0
作者
李曌
机构
[1] 西南交通大学
关键词
云计算; Hadoop; MapReduce; 调度; 时间预测; 截止期; 工作类型;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
云计算作为一种新的信息技术,为海量数据的分析和处理带来了全新的视野。它是一种商业计算模型,将计算任务分布在大量计算机构成的资源池上,使用户能够按需获取计算能力、存储空间和信息服务,具有大存储、高可靠性、易于扩展等特点。Hadoop是用于数据分析与处理的开源云平台,对大量作业进行调度和处理。调度主要是对资源进行合理分配和对作业的运行顺序进行控制。Hadoop运行在大量机器组成的集群中,对成千上万的任务进行管理和调度,合适的调度算法对作业响应时间和交互能力都有重要影响。 MapReduce是Hadoop中用于处理超大规模数据集的编程模型,分为Map和Reduce两阶段。动态资源分配中需要预估MapReduce运行过程中Map和Reduce的执行时间,而当前调度算法的研究中对此关注较少,本文提出一种改进的预估执行时间的方法。Map阶段,根据历史执行信息采用均值法作为预估方法;Reduce阶段采用基于采样和反馈相结合的预估方法。本算法能更准确地预估任务的执行时间并为动态分配资源提供有效时间预估方法。 鉴于Hadoop内置的调度算法不能满足有效区分CPU密集型和I/O密集型两种类型的作业并且作业需要在特定的时间之前完成的需求。本文提出一种区分作业类型的基于截止时间的调度算法(Type Specific and Deadline Based Algorithm in Hadoop, TSD)。本算法包含两部分:将用户提交的作业分为CPU密集型作业和I/O密集型作业的预测机制;根据用户设置的最后完成期限而设置优先级的基于截止时间的调度算法。实验结果表明,TSD算法较以往单纯保证截止期的算法在确保作业成功率、缩短作业响应时间和提高集群的硬件利用率方面都有很大的提升。
引用
收藏
页数:65
共 28 条
[1]
基于HBase的多决策反馈式计算模型的研究与实现 [D]. 
何伟岗 .
西安电子科技大学,
2012
[2]
基于Hadoop的云计算模型研究与应用 [D]. 
曹风兵 .
重庆大学,
2011
[3]
云计算中混合云互通及其资源管理机制研究 [D]. 
刘昶言 .
北京邮电大学,
2010
[4]
云计算.[M].刘鹏; 主编.电子工业出版社.2011,
[5]
实战Hadoop.[M].刘鹏; 主编.电子工业出版社.2011,
[6]
Hadoop权威指南.[M].(美)Tom White著.清华大学出版社.2011,
[7]
Scientific computing with Google App Engine [J].
Prodan, Radu ;
Sperk, Michael .
FUTURE GENERATION COMPUTER SYSTEMS-THE INTERNATIONAL JOURNAL OF ESCIENCE, 2013, 29 (07) :1851-1859
[8]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[9]
MTSD:A task scheduling algorithm for MapReduce base on deadline constraints..Tang Zhuo;Zhou Jun-qing;Li Ken-li;et al;.IEEE 26th International Parallel and Distributed Processing Symposium Workshops&PhD Forum.2012,
[10]
Fair Scheduler...http://hadoop.apache.org/common/docs/r0.20.2/fair scheduler.html.2013,