基于MapReduce模型的并行计算平台的设计与实现

被引:0
作者
万至臻
机构
[1] 浙江大学
关键词
海量数据; 映射规约; 并行计算; 分布式文件系统; 负载均衡; 容错机制; 集群;
D O I
暂无
年度学位
2008
学位类型
硕士
摘要
随着互联网的迅猛发展,每天由网络产生的数据量越来越庞大。互联网企业面对这些浩繁的数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。设计一个通用可扩展的平台,来有效地处理海量数据,不断地从中挖掘出对运营商有价值的信息,成为互联网企业发展的必然选择。 MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。 本文在分析MapReduce模型的基础上,结合自身的特点,提出了一种并发处理海量数据的更通用、更可扩展的平台。 首先,我们提出了海量数据并发处理平台的体系结构。该结构为客户端-任务调度与执行层-数据存储层三层架构。在客户端,通过可配置的XML文档提交用户任务。在进行任务调度与执行层设计时,我们首先提出了几点关键的策略,如通用平台策略、负载均衡策略、中间结果处理策略和容错策略。接着,我们提出了主控节点-分派节点.服务节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分派节点负责解析、分派任务,获取任务执行结果;服务节点负责任务的具体执行。三种节点互相配合,共同完成数据的并发处理。 接着,我们设计了存储海量数据的分布式文件系统。分布式文件系统具有优异的性能和吞吐率,较高的稳定性和良好的可扩展性。 最后,我们在已经搭建好的平台上,进行了若干测试系统性能的实验。我们通过单机与并发执行用户任务的对比实验,说明了并行计算平台的高效。我们通过执行不同类型的任务,说明了如何在集群规模一定的情况下,实现性能调优。
引用
收藏
页数:74
共 6 条
[1]
Programming parallel algorithms [J].
Blelloch, GE .
COMMUNICATIONS OF THE ACM, 1996, 39 (03) :85-97
[3]
FAST PARALLEL SORTING ALGORITHMS [J].
HIRSCHBERG, DS .
COMMUNICATIONS OF THE ACM, 1978, 21 (08) :657-661
[4]
Cambridge Series in Parallel Computation..D.B.Skillicorn;.Cambridge University Press.1994,
[5]
BigTable:A Distributed Storage System for Structured Data..Fay Chang;Jeffrey Dean;Sanjay Ghemawat;Wilson C.Hsieh;et al;.OSDI''06:Seventh Symposium on Operating System Design and Implementation.2006,
[6]
Diamond:A storage architecture for early discard in interactive search..L. Huston;R. Sukthankar;R. Wickremesinghe;M. Satyanarayanan;G R. Ganger;E. Riedel;A. Ailamaki;.Proceedings of the 2004 USENIX File and Storage Technologies FAST Conference.2004,