HBase大对象存储方案的设计与实现

被引:0
作者
康毅
机构
[1] 南京大学
关键词
大数据; HBase; 大对象存储;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
海量数据的时代正在到来,随着互联网的急速发展,网络访问量、网络访问日志、通讯记录、视频资料、移动网络和各种智能终端所产生的巨大数据集的规模也在急剧扩大。而其数据集的一个重要特点体现在:超过80%的数据是非结构化的。传统技术无法胜任大数据集的分析、管理和挖掘,目前业界对于大数据处理的一种流行解决方案为HBase。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。而非结构化数据作为一个大对象(Large Object), HBase对其的处理与其他结构化数据一样,因此,在HBase的数据导入过程中,由于大量非结构化数据的导入,HBase的Region大小增长迅速,其Region的Split过程和Compact过程会频繁促发,在一定程度上卡住客户端的写入,影响HBase的插入性能。 因此,如果能在插入时减少其HBase Region的Split和Compact次数肯定能在很大程度上提高其HBase的插入性能。与此同时我们也需要兼顾其读取的性能和存储的管理复杂度,并且在不引入外部因素的同时最小程度的修改HBase源代码。基于这些因素,提出自己的HBase的大对象存储(Large Object Storage, LOB)解决方案。
引用
收藏
页数:72
共 1 条
[1]
Hadoop实战.[M].陆嘉恒; 著.机械工业出版社.2011,