云计算平台上基于过滤器的多表连接算法

被引:2
作者
王婧
王腾蛟
杨冬青
李红燕
机构
[1] 北京大学信息科学技术学院
关键词
云计算; 多表连接; 过滤器;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
云计算是当前处理大规模数据分析的重要技术.然而,云计算平台上数据的广泛分布性使多表连接运算代价过高,这是一个迫切需要解决的问题.针对这一问题,首先对云计算环境中已有的多表连接算法进行分析,然后提出一种新的基于过滤器的多表连接算法.对多个表同时进行连接,避免中间结果的产生;通过预先统计连接属性的取值分布,减少不必要的元组复制与数据传输.在TPC-H数据上的实验结果显示,基于过滤器的多表连接算法与Hive及另外两种已有算法相比,显著提高了云计算环境中多表连接运算的效率.
引用
收藏
页码:245 / 253
页数:9
相关论文
共 1 条
[1]  
Optimizing joins in a map-reduce environment .2 Afrati FN,Ullman JD. Proc.of the13th Int’’l Conf.on Extending Database Technology(EDBT2010) . 2010