Spark环境下并行立方体计算方法

被引:5
作者
萨初日拉
周国亮
时磊
王刘旺
石鑫
朱永利
机构
[1] 华北电力大学控制与计算机工程学院
关键词
Spark; 联机分析处理; 数据立方体; 自底向上构造;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。
引用
收藏
页码:348 / 352
页数:5
相关论文
共 15 条
[1]  
Spark:cluster computing with working sets. Matei Zaharia,Mosharaf Chowdhury,Michael J Franklin,Scott Shenker,Ion Stoica. Proceedings of the 2nd USENIX conference on Hot topics in cloud computing . 2010
[2]  
Scientific data management in the coming decade[J] . Jim Gray,David T. Liu,Maria Nieto-Santisteban,Alex Szalay,David J. DeWitt,Gerd Heber. &nbspACM SIGMOD Record . 2005 (4)
[3]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat. &nbspCommunications of the ACM . 2008 (1)
[4]  
基于Hadoop的商立方体研究与实现[D]. 张娟.华东师范大学 2013
[5]  
基于分布式平台Spark和YARN的数据挖掘算法的并行化研究[D]. 梁彦.中山大学 2014
[6]   基于MapReduce的封闭立方体并行计算方法 [J].
奚建清 ;
游进国 ;
汤德佑 ;
肖伟吉 .
华南理工大学学报(自然科学版), 2009, 37 (01) :91-95+112
[7]  
Data mining:concepts and techniques. HAN J,KAMBER M,PEI J. . 2011
[8]   基于云计算的海量数据挖掘研究 [J].
贺瑶 ;
王文庆 ;
薛飞 .
计算机技术与发展, 2013, 23 (02) :69-72
[9]   多核处理器上的并行联机分析处理算法研究 [J].
周国亮 ;
王桂兰 ;
朱永利 .
计算机科学与探索, 2013, (02) :180-190
[10]   列存储中的OLAP多查询优化方法 [J].
陆戌辰 ;
王梅 ;
乐嘉锦 .
计算机科学与探索, 2012, (09) :852-864