基于Hadoop的作业调度算法的研究和改进

被引:0
作者
戴君
机构
[1] 武汉理工大学
关键词
Hadoop; 作业调度算法; 延迟等待; 加权轮转;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着互联网技术的不断发展,面对空前膨胀的海量数据,云计算得到了快速发展。Hadoop平台是Google云计算系统的一个开源实现,目前已成为最流行的开源云计算平台。但是,它的发展时间较短,很多地方还需要改进,其中一个突出问题是作业调度问题。改进Hadoop平台中的作业调度算法,对提升平台的整体性能,进而推动云计算的发展有重要意义。 本文首先讨论了Hadoop平台的相关技术背景和体系结构,重点分析了Hadoop平台的核心组成部分:分布式文件系统HDFS和并行计算模型MapReduce。 其次,以Hadoop平台的主从式结构为基础,详细分析Hadoop平台的作业执行的流程,研究和比较Hadoop平台中现有的三种作业调度算法:FIFO调度算法、计算能力调度算法和公平调度算法,并指出算法的优缺点,为算法的改进提供依据。公平调度算法是多用户多类型作业场景下应用最广泛的作业调度算法。但是,公平调度算法中的延迟等待机制忽略了数据本地性、用户、作业和任务类别的不同对作业调度的影响,应该区分对待map任务和reduce任务,以及不同优先级用户的不同类别的作业。针对这个问题,提出基于优先级的延迟等待公平调度算法。另外,在保证用户和作业公平性的设计前提下,将公平调度算法和加权轮转算法相结合,提出基于加权轮转的公平调度算法。通过作业池间采用公平调度,作业池内采用加权轮转调度的方式,达到保证Hadoop系统吞吐率的同时,降低JobTracker节点负载的效果。 最后,通过搭建实验平台,选择合适的基准测试程序和评估方法,验证基于优先级的延迟等待公平调度算法和基于加权轮转的公平调度算法的优越性,并对实验结果做详细分析。
引用
收藏
页数:70
共 22 条
[1]
面向大型关键业务的Hadoop云计算平台数据安全策略研究.[A].金松昌;杨树强;樊华;刘斐;.第27次全国计算机安全学术交流会.2012,
[2]
基于MapReduce的信息检索相关算法并行化研究与实现 [D]. 
肖韬 .
南京大学,
2012
[3]
MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进 [D]. 
陈艳金 .
华南理工大学,
2011
[4]
基于hadoop平台作业调度算法的研究 [D]. 
余正祥 .
云南大学,
2011
[5]
MapReduce集群多用户作业调度方法的研究与实现 [D]. 
王凯 .
国防科学技术大学,
2010
[6]
Hadoop平台下的作业调度算法研究与改进 [D]. 
夏祎 .
华南理工大学,
2010
[7]
基于HDFS的云存储服务系统研究 [D]. 
黄晓云 .
大连海事大学,
2010
[8]
MapReduce模型在Hadoop实现中的性能分析及改进优化 [D]. 
张密密 .
电子科技大学,
2010
[9]
云环境下作业调度算法研究与实现 [D]. 
赵春燕 .
北京交通大学,
2009
[10]
云计算中的网络拓扑设计和Hadoop平台研究 [D]. 
邓自立 .
中国科学技术大学,
2009