改进型MapReduce框架的研究与设计

被引:0
作者
常涛
机构
[1] 北京邮电大学
关键词
并行计算; 云计算; MapReduce;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
随着云计算迎来了蓬勃的发展,Hadoop作为开源云计算平台,得到了国内外很多公司和高校的青睐。相应的,作为Hadoop的子项目和分布式并行处理框架的MapReduce,目前基于它的应用越来越多,特别是在大数据量处理方面,通过将应用任务并行化,使应用系统的处理性能有了很大的提升。但随着应用的广泛性和多样性,针对具体应用,其暴露出来的不足和需要改进之处越来越多,Hadoop还没有到达1.0版本。 本文主要对MapReduce框架做以下几方面的探讨: (1)简要介绍了并行计算、分布式计算、云计算三种计算模型的定义及其相关概念,通过分析总结出MapReduce框架是符合三种计算模型的。引入Hadoop和MapReduce框架处理流程和机制,为下文提出改进方案奠定基础 (2)通过剖析具体应用以及深入分析框架处理流程和相关源代码实现,总结实际应用中出现的一些影响执行效率的问题,如数据倾斜问题、规约任务不均衡问题和规约调度问题等 (3)提供了针对出现问题的改进方案,主要实现了针对中间结果进行切割的切分函数、启动新规约任务的机制以及相应的调度机制,给出了改进后的方案设计架构和实现 (4)经过多次、不同级别数据量的试验,表明改进后的框架在相关应用上确实能够提高作业的执行效率
引用
收藏
页数:68
共 4 条
[1]
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.清华大学出版社.2010,
[2]
并行计算导论.[M].张林波[等]编著;.清华大学出版社.2006,
[3]
...http://baike.baidu.com/view/1316082.htm.,
[4]
MapReduceOnline..UCBerkeley;.http://db.cs.berkeley.edu/papers/nsdi10-hop.pdf.,