基于HBase的海量数据实时查询系统设计与实现

被引:0
作者
卓海艺
机构
[1] 北京邮电大学
关键词
HBase; SQL解析器; 二级索引;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
海量数据的存储和查询是近年来业界的研究热点之一。传统的关系数据库由于可扩展性和处理性能的限制无法满足其要求。新兴的NoSQL数据库具有良好的可扩展性,但不支持SQL和二级索引等传统数据库特性。因此包含NoSQL高可扩展性,同时具有传统数据库特性的NewSQL更适合海量数据的存储和查询。 本文在NoSQL数据库HBase的基础上,设计并实现一个能够满足海量数据实时查询需求的NewSQL系统。它保持原系统的可用性可扩展性、容错性等特性,并且支持SQL语言,易于使用,支持二级索引功能,可用于数据的实时查询。用户输入的SQL语句先经过SQL命令解析器解析,再通过Schema转化器把输入字段转化为HBase的列族和限定符,然后使用查询规划器对不同类型SQL语句的处理流程进行规划,最后完成规划的处理流程。本文使用JSQLParser作为SQL命令解析器,通过规格化字段格式完成Schema转化,利用MapReduce(?)匡架实现数据库迁移和备份。为了提高查询效率,本文使用已有Coprocssor组件完成集合函数查询功能和属性条件删除功能,并基于Coprocessor框架开发了属性条件更新组件及用于实时生成索引的组件。同时为了保证索引数据的最终一致性,本文还提供了基于MapReduce框架的索引生成组件,用于线下生成索引。 最后,本文搭建实验系统完成性能测试,并与Hive+HBase系统进行性能比较。通过实验数据得出,本文构建的新系统能够支持SQL语句和二级索引功能,提供良好的性能及可扩展性,实现海量数据实时查询。
引用
收藏
页数:60
共 6 条
[1]
Design and implementation for SQL parser based on ANTLR..Cao Danyang;Bai Donghui;.Proceedings of the 2nd international Conference on Computer Engineering and Technology (ICCET).2010,
[2]
Sqoop...http://sqoop.apache.org.,
[3]
大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].
李国杰 ;
程学旗 .
中国科学院院刊, 2012, 27 (06) :647-657
[4]
架构大数据:挑战、现状与展望 [J].
王珊 ;
王会举 ;
覃雄派 ;
周烜 .
计算机学报, 2011, 34 (10) :1741-1752
[5]
NoSQL数据管理系统综述 [J].
卢益阳 .
企业科技与发展, 2011, (17) :31-33
[6]
浅析NoSQL数据库 [J].
卢冬海 ;
何先波 .
中国西部科技, 2011, 10 (02) :15-16+14