大规模数据密集型系统中的去重查询优化

被引:6
作者
宋怀明 [1 ,2 ]
安明远 [1 ,2 ]
王洋 [1 ,2 ]
袁春阳 [3 ]
孙凝晖 [1 ]
机构
[1] 中国科学院计算技术研究所计算机系统结构重点实验室
[2] 中国科学院研究生院
[3] 国家计算机网络应急技术处理协调中心
关键词
去重查询; 数据划分; 大规模数据密集型系统; 异步查询; 并行查询引擎;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对shared-nothing结构下大规模数据密集型系统去重查询的挑战,提出了一种有效的数据分布策略和并行处理方法分别对相关属性和无关属性去重进行优化:即自适应的散列和直方图相结合的数据分布策略,以及异步式并行查询中间件.前者在数据写入时保证数据均衡,并在数据量发生倾斜时自动调整数据的分布;后者充分发掘了去重查询处理中的粗粒度流水级并行,并消除了多节点同步等待的开销,尽早地返回结果.在生产系统DBroker上的测试表明,数据分布策略极大地改善相关属性的去重查询性能,而异步式并行查询引擎能够充分发掘并行性,对不相关属性的去重查询具有显著的性能提升.
引用
收藏
页码:581 / 588
页数:8
相关论文
共 7 条
[1]   Exploiting early sorting and early partitioning for decision support query processing [J].
Claussen, J ;
Kemper, A ;
Kossmann, D ;
Wiesner, C .
VLDB JOURNAL, 2000, 9 (03) :190-213
[2]   Data placement in shared-nothing parallel database systems [J].
Mehta M. ;
DeWitt D.J. .
The VLDB Journal, 1997, 6 (1) :53-72
[3]  
Control strategies for complex relational query processing in shared nothing systems[J] . Lionel Brunie,Harald Kosch.ACM SIGMOD Record . 1996 (3)
[4]  
Uniform partitioning of relations using histogram equalization framework: An efficient parallel hash-based join[J] . Ung Kyu Park,Hwang Kyu Choi,Tag Gon Kim.Information Processing Letters . 1995 (5)
[5]   FAST ALGORITHMS FOR UNIVERSAL QUANTIFICATION IN LARGE DATABASES [J].
GRAEFE, G ;
COLE, RL .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 1995, 20 (02) :187-236
[6]  
Adaptive parallel aggregation algorithms[J] . Ambuj Shatdal,Jeffrey F. Naughton.ACM SIGMOD Record . 1995 (2)
[7]   DUPLICATE RECORD ELIMINATION IN LARGE DATA FILES [J].
BITTON, D ;
DEWITT, DJ .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 1983, 8 (02) :255-265