基于hadoop平台作业调度算法的研究

被引:0
作者
余正祥
机构
[1] 云南大学
关键词
云计算; MapReduce; 作业调度; 特征加权朴素贝叶斯;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
互联网技术的迅猛发展,互联网数据呈现爆炸性的增长,面临海量数据处理问题。云计算作为—种新的模型提出来,发展极为迅速。云计算开源系统Hadoop模仿和实现了Google云计算的主要技术,并获得广泛的应用。Hadoop是一个在不断发展和完善的平台,在Hadoop研究中作业调度的研究是学术界和工业界的热点问题之一。改进和提高作业调度能力,能提升海量数据处理的能力。对提高Hadoop平台的性能和资源利用效率都有重要的现实意义。 本文首先介绍了Hadoop的技术背景,其次介绍了Hadoop平台的核心部分,即Hadoop的分布式文件系统(HDFS)和MapReduce计算框架,详细分析了Hadoop的作业调度流程。接着研究了Hadoop平台下现有的调度算法,即FIFO算法,计算能力算法,公平调度算法。详细研究了公平调度算法。 在对Hadoop平台深入了解和对其作业调度算法进行详细研究下,提出对作业调度算法的改进。首先,分析了公平调度算法的数据本地化问题,分析其中的延迟改进算法,在此算法的基础上,提出保证响应时间T的延迟算法,来保证特殊用户(如:付费用户)的服务水平协议(SLA)要求,这里主要针对短作业。其次,希望通过利用过去的节点历史记录和学习作业属性来不断的改进作业调度,提出应用基于特征加权的朴素贝叶斯分类器算法来改进作业调度的任务分配,详细分析了算法的设计思想,并进行原型的设计和实现。 最后通过实验环境的搭建来测试改进算法,首先测试了保证特定响应时间T的延迟算法,实验证明到达了响应时间T的要求,但损失了部分的数据本地化。其次,测试了基于特征加权的朴素贝叶斯分类调度算法,对其学习的能力,特征加权对性能的影响,决策的正确率以及与现有调度算法的性能进行试验对比分析。
引用
收藏
页数:70
共 14 条
[1]
一种多用户MapReduce集群的作业调度算法的设计与实现 [J].
王凯 ;
吴泉源 ;
杨树强 .
计算机与现代化, 2010, (10) :23-28
[2]
Hadoop集群作业的调度算法 [J].
王峰 .
程序员, 2009, (12) :119-121
[3]
基于Rough Set的加权朴素贝叶斯分类算法 [J].
邓维斌 ;
王国胤 ;
王燕 .
计算机科学, 2007, (02) :204-206+219
[4]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[5]
The Google file system.[J].Sanjay Ghemawat;Howard Gobioff;Shun-Tak Leung.ACM SIGOPS Operating Systems Review.2003, 5
[6]
云计算.[M].刘鹏; 主编.电子工业出版社.2010,
[7]
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.清华大学出版社.2010,
[8]
模式分类.[M].(美)RichardO.Duda等著;李宏东;姚天翔等译;.机械工业出版社.2003,
[9]
MapReduce模型在Hadoop实现中的性能分析及改进优化 [D]. 
张密密 .
电子科技大学,
2010
[10]
云环境下作业调度算法研究与实现 [D]. 
赵春燕 .
北京交通大学,
2009