基于Impala的大数据查询分析计算性能研究

被引:14
作者
郭超 [1 ]
刘波 [1 ]
林伟伟 [2 ]
机构
[1] 华南师范大学计算机学院
[2] 华南理工大学计算机科学与工程学院
基金
广东省科技计划; 广东省自然科学基金;
关键词
大数据; Hadoop; MapReduce; Impala; 计算性能; 查询分析;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
分析了Cloudera公司推出的Impala实时查询引擎原理与架构,并深入比较Impala与传统MapReduce的性能与特点,针对Impala进行复杂大数据处理方面的不足,提出了MapReduce与Impala结合的大数据处理方法,通过使用MapReduce对Impala的输入数据进行预处理,利用MapReduce在复杂作业处理方面的长处弥补了Impala在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验,实验结果表明,在大数据查询性能方面,基于MapReduce与Impala结合的大数据处理速度比传统MapReduce快了一倍。特别地,在迭代查询实验中,基于MapReduce与Impala结合的处理方法超过传统MapReduce方法八倍以上。基于MapReduce与Impala结合的处理方法在单次查询中的效率仍然高于传统MapReduce;而在迭代查询中,MapReduce与Impala结合的处理方法远远地超过了MapReduce。因此,MapReduce与Impala结合的处理方法能够发挥Impala和Hadoop各自的优点,让处理效率远超传统MapReduce,对于复杂的大数据处理的能力高于Impala。
引用
收藏
页码:1330 / 1334
页数:5
相关论文
共 5 条
  • [1] Hadoop框架的扩展和性能调优[D]. 李鑫.西安建筑科技大学. 2012
  • [2] Efficient OR Hadoop: Why Not Both?[J] . Jens Dittrich,Stefan Richter,Stefan Schuh.Datenbank-Spektrum . 2013 (1)
  • [3] 新一代数据分析利器:GoogleDremel原理分析 .2 颜开. . 2012
  • [4] Optimizing Hadoop deployments .2 Intel. http://communities.intel.com/servlet/Jive Servletdownload Body/5645-102-1-8759 . 2010
  • [5] Apache Hadoop goes realtime at Facebook .2 BORTHAKUR D,GRAY J,SARMA J S,et al. Proc of ACM SIGMOD International Conference on Management of Data . 2011