基于Spark的大数据混合计算模型

被引：58

作者：

胡俊 ^{[1
]}

胡贤德 ^{[1
]}

程家兴 ^{[1
,2
]}

机构：

[1] 安徽新华学院信息工程学院

[2] 安徽大学计算机科学与技术学院

来源：

计算机系统应用 | 2015年 / 24卷 / 04期

关键词：

大数据; 混合计算模式; spark; 弹性分布数据集;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(Graph X).Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性.因此,随着系统的不断稳定和成熟,Spark有望成为与Hadoop共存的新一代大数据处理系统和平台.本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用.

引用

页码：214 / 218

页数：5