面向大规模机群的可扩展OLAP查询技术

被引:8
作者
王会举 [1 ,2 ]
覃雄派 [1 ,2 ]
王珊 [1 ,2 ]
张延松 [3 ]
李芙蓉 [1 ,2 ]
机构
[1] 数据工程与知识工程教育部重点实验室(中国人民大学)
[2] 中国人民大学信息学院
[3] 中国人民大学中国调查与数据中心
关键词
大规模可扩展; OLAP查询; 无连接雪花模型; TRM执行模型; 跳跃式扫描; Scan-index; 大数据;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge 3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级.
引用
收藏
页码:45 / 58
页数:14
相关论文
共 2 条
  • [1] SYSTEM/U: a database system based on the universal relation assumption[J] . Henry F. Korth,Gabriel M. Kuper,Joan Feigenbaum,Allen van Gelder,Jeffrey D. Ullman.ACM Transactions on Database Systems (TODS) . 1984 (3)
  • [2] MapReduce: simplified data processing on large clusters. Dean J,Ghemawat S. proceedings of the 6th Symposium on Operating System Design and Implementation . 2004