基于Hadoop的MapReduce模型的研究与改进

被引:37
作者
李玉林
董晶
机构
[1] 华北计算技术研究所
关键词
MapReduce模型; Hadoop; 数据倾斜; 云计算; 并行编程;
D O I
10.16208/j.issn1000-7024.2012.08.037
中图分类号
TP311.1 [程序设计];
学科分类号
摘要
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。
引用
收藏
页码:3110 / 3116
页数:7
相关论文
共 3 条
[1]   IaaS公有云平台调度模型研究 [J].
岳冬利 ;
刘海涛 ;
孙傲冰 .
计算机工程与设计, 2011, 32 (06) :1889-1892+1897
[2]   基于MPI的云计算模型 [J].
郭本俊 ;
王鹏 ;
陈高云 ;
黄健 .
计算机工程, 2009, 35 (24) :84-86
[3]  
基于Hadoop的海量数据处理模型研究和应用.[D].朱珠.北京邮电大学.2008, 11