一种基于动态划分的MapReduce负载均衡方法

被引:29
作者
周家帅 [1 ,2 ]
王琦 [3 ]
高军 [1 ,2 ]
机构
[1] 北京大学信息科学技术学院
[2] 高可信软件技术教育部重点实验室(北京大学)
[3] 国家计算机网络应急技术处理协调中心
关键词
MapReduce; 负载均衡; 动态划分; 数据倾斜; 采样;
D O I
暂无
中图分类号
TP338.8 [分布式计算机];
学科分类号
140102 [集成电路设计与设计自动化];
摘要
MapReduce作为一种分布式计算框架,在大规模数据处理中已经被广泛应用.负载均衡是影响分布式计算性能的关键因素.当前的MapReduce实现在给集群分发任务时,多采用Hash的随机划分方式,无法根据数据的分布情况来调整集群的负载,容易出现负载不均衡的问题.为解决这一问题,对当前的MapReduce框架进行拓展,根据对Map端中间结果的采样来动态确定Reduce任务数目以及划分函数,保证Reduce任务的负载均衡.具体地,对Map的结果进行采样,并将其发送给Job Tracker.Job Tracker根据采样数据的分布情况动态确定划分函数,以保证每个Reduce任务处理的记录数目均衡.更重要的是,在Hadoop框架内实现了负载均衡方法,测试结果证明方法具有良好的有效性、兼容性和可用性.
引用
收藏
页码:369 / 377
页数:9
相关论文
共 2 条
[1]
一种周期性MapReduce作业的负载均衡策略 [J].
傅杰 ;
都志辉 .
计算机科学, 2013, 40 (03) :38-40
[2]
MapReduce[J] Jeffrey Dean;Sanjay Ghemawat Communications of the ACM 2008,