基于Spark的大数据混合计算模型

被引:58
作者
胡俊 [1 ]
胡贤德 [1 ]
程家兴 [1 ,2 ]
机构
[1] 安徽新华学院信息工程学院
[2] 安徽大学计算机科学与技术学院
关键词
大数据; 混合计算模式; spark; 弹性分布数据集;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(Graph X).Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性.因此,随着系统的不断稳定和成熟,Spark有望成为与Hadoop共存的新一代大数据处理系统和平台.本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用.
引用
收藏
页码:214 / 218
页数:5
相关论文
共 1 条
[1]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2008 (1)