基于统计方法的Hive数据仓库查询优化实现

被引:16
作者
王有为 [1 ]
王伟平 [2 ]
孟丹 [2 ]
机构
[1] 中国科学院计算技术研究所集成应用中心
[2] 中国科学院信息工程研究所
关键词
海量数据离线处理; 分布式数据仓库; 负载均衡; 统计信息收集; 查询优化;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8%45%,Join查询耗时节省了12%46%;集群CPU负载均衡指标优化了60%80%,I/O负载均衡指标优化了60%90%.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率.
引用
收藏
页码:1452 / 1462
页数:11
相关论文
共 3 条
[1]   基于Hadoop的高效连接查询处理算法CHMJ [J].
赵彦荣 ;
王伟平 ;
孟丹 ;
张书彬 ;
李均 .
软件学报, 2012, 23 (08) :2032-2041
[2]  
A comparison of join algorithms for log processing in MapReduce. Blanas S,Patel J M,Ercegovac V,et al. Proc of the ACM SIGMOD Int Conf on Management of Data . 2010
[3]  
LEEN: Locality/Fairness-Aware KeyPartitioning for MapReduce in the Cloud. Ibrahim Shadi,Jin Hai,Lu Lu, et al. 2nd IEEE International Conference onCloud Computing Technology and Science . 2010