基于MapReduce模型的并行计算平台的设计与实现

被引：0

作者：

万至臻

机构：

[1] 浙江大学

关键词：

海量数据; 映射规约; 并行计算; 分布式文件系统; 负载均衡; 容错机制; 集群;

D O I：

暂无

年度学位：

2008

学位类型：

硕士

导师：

陈刚; 寿黎但;

摘要：

随着互联网的迅猛发展,每天由网络产生的数据量越来越庞大。互联网企业面对这些浩繁的数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。设计一个通用可扩展的平台,来有效地处理海量数据,不断地从中挖掘出对运营商有价值的信息,成为互联网企业发展的必然选择。 MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。本文在分析MapReduce模型的基础上,结合自身的特点,提出了一种并发处理海量数据的更通用、更可扩展的平台。首先,我们提出了海量数据并发处理平台的体系结构。该结构为客户端-任务调度与执行层-数据存储层三层架构。在客户端,通过可配置的XML文档提交用户任务。在进行任务调度与执行层设计时,我们首先提出了几点关键的策略,如通用平台策略、负载均衡策略、中间结果处理策略和容错策略。接着,我们提出了主控节点-分派节点.服务节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分派节点负责解析、分派任务,获取任务执行结果;服务节点负责任务的具体执行。三种节点互相配合,共同完成数据的并发处理。接着,我们设计了存储海量数据的分布式文件系统。分布式文件系统具有优异的性能和吞吐率,较高的稳定性和良好的可扩展性。最后,我们在已经搭建好的平台上,进行了若干测试系统性能的实验。我们通过单机与并发执行用户任务的对比实验,说明了并行计算平台的高效。我们通过执行不同类型的任务,说明了如何在集群规模一定的情况下,实现性能调优。

引用

页数：74

共 6 条

[1]

Programming parallel algorithms [J].

Blelloch, GE .

COMMUNICATIONS OF THE ACM, 1996, 39 (03) :85-97

[2]

EFFICIENT DISPERSAL OF INFORMATION FOR SECURITY, LOAD BALANCING, AND FAULT TOLERANCE [J].

RABIN, MO .

JOURNAL OF THE ACM, 1989, 36 (02) :335-348

[3]

FAST PARALLEL SORTING ALGORITHMS [J].

HIRSCHBERG, DS .

COMMUNICATIONS OF THE ACM, 1978, 21 (08) :657-661

[4]

Cambridge Series in Parallel Computation..D.B.Skillicorn;.Cambridge University Press.1994,

[5]

BigTable:A Distributed Storage System for Structured Data..Fay Chang;Jeffrey Dean;Sanjay Ghemawat;Wilson C.Hsieh;et al;.OSDI''06:Seventh Symposium on Operating System Design and Implementation.2006,

[6]

Diamond:A storage architecture for early discard in interactive search..L. Huston;R. Sukthankar;R. Wickremesinghe;M. Satyanarayanan;G R. Ganger;E. Riedel;A. Ailamaki;.Proceedings of the 2004 USENIX File and Storage Technologies FAST Conference.2004,

← 1 →