基于MapReduce的数据聚集运算算法

被引:6
作者
冷芳玲
鲍玉斌
高伟
于戈
机构
[1] 东北大学信息科学与工程学院
基金
国家高技术研究发展计划(863计划); 中央高校基本科研业务费专项资金资助;
关键词
数据仓库; 聚集运算; MapReduce; 联机分析处理;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提出了一组基于MapReduce的面向海量数据的数据聚集运算算法,主要包括数据的选择、投影以及等值连接等,并在此基础上,实现了计数、求和和均值等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。实验结果表明,该算法充分利用了集群系统的计算能力和存储能力,极大地提高了海量数据的聚集运算效率和基于聚集运算结果上的数据查询效率。
引用
收藏
页码:469 / 475+481 +481
页数:8
相关论文
共 4 条
[1]   大规模数据密集型系统中的去重查询优化 [J].
宋怀明 ;
安明远 ;
王洋 ;
袁春阳 ;
孙凝晖 .
计算机研究与发展, 2010, 47 (04) :581-588
[2]   基于MapReduce的封闭立方体并行计算方法 [J].
奚建清 ;
游进国 ;
汤德佑 ;
肖伟吉 .
华南理工大学学报(自然科学版), 2009, 37 (01) :91-95+112
[3]   MapReduce模型的调度及容错机制研究 [J].
孙广中 ;
肖锋 ;
熊曦 .
微电子学与计算机, 2007, (09) :178-180
[4]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2010 (1)