面向海量空间数据并行高效处理的存储模式设计与研究

被引:0
作者
何涛
机构
[1] 电子科技大学
关键词
海量空间数据; Hadoop; 集群; 并行计算; K均值;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
随着现代地理空间信息技术的快速发展,带来了空间数据集规模的急剧膨胀。面对如此海量和复杂的空间数据集,迫切需要一种能够对其进行高效的组织、存储、处理与管理的技术解决方案。Hadoop提供了海量的数据存储能力和支持并行计算的编程模型,为实现海量空间数据的存储与计算一体化提供强大的平台支持。本文基于开源Hadoop软件框架对海量空间数据的高效存储管理开展了以下研究:(1)深入分析了当前海量空间数据的存储管理方法,总结了每种方法的优缺点,为下一步研究提供坚实的理论依据。详细介绍了Hadoop架构体系的三大核心技术,分布式文件系统HDFS,并行编程模型MapReduce和分布式数据库HBase。(2)深入研究了HDFS的文件存储机制,结合简单矢量数据结构,设计了适合在HDFS中存储矢量数据的存储模式,在此基础上实现最基本的矢量空间操作。针对传统射线法不适合批量点包含判断的问题,同时为避免射线法的大量求交运算,对射线法进行改进,并通过MapReduce并行编程模型加以实现。最后,利用分布式数据库HBase管理经MapReduce编程模型处理输出的矢量数据。(3)通过比较现有Hadoop小文件存储解决方法,设计了一种基于MapFile序列文件技术的海量栅格数据存储模式,实现海量栅格数据在HDFS的高效存储,并利用HBase数据库表管理海量栅格数据,提高了海量栅格数据的存储与读写效率。为实现图像的并行聚类,通过MapReduce编程模型对K均值聚类算法进行并行化设计,缩短了聚类时间。(4)搭建Hadoop计算平台,开展了基于分布式集群的海量点包含性测试、海量栅格数据存储性能测试、图像聚类等实验,证明本文设计的存储模式能够为海量空间数据的高效处理提供支持。
引用
收藏
页数:74
共 16 条
[1]
基于Hadoop的并行谱聚类算法实现 [D]. 
李志闯 .
华南理工大学,
2012
[2]
基于服务的数据挖掘关联规则技术的研究 [D]. 
谭斌 .
湖北工业大学,
2012
[3]
海量空间数据的分布式存储管理及并行处理技术研究 [D]. 
崔鑫 .
国防科学技术大学,
2010
[4]
全球海量遥感影像数据的分布式管理技术研究 [D]. 
刘露 .
国防科学技术大学,
2007
[5]
基于Hadoop的K-means聚类算法的实现 [J].
周婷 ;
张君瑛 ;
罗成 .
计算机技术与发展, 2013, 23 (07) :18-21
[6]
面向Hadoop的云计算核心技术分析 [J].
吴岳忠 ;
周训志 .
湖南工业大学学报, 2013, (01) :77-80
[7]
一种结合RDBMS和Hadoop的海量小文件存储方法 [J].
刘小俊 ;
徐正全 ;
潘少明 .
武汉大学学报(信息科学版), 2013, 38 (01) :113-115+120
[8]
基于HBase的矢量空间数据分布式存储研究 [J].
范建永 ;
龙明 ;
熊伟 .
地理与地理信息科学 , 2012, (05) :39-42
[9]
基于聚类和一致Hash的数据布局算法 [J].
陈涛 ;
肖侬 ;
刘芳 ;
付长胜 .
软件学报, 2010, 21 (12) :3175-3185
[10]
一种判断点在多边形内的新方法 [J].
燕昊 .
河南科学, 2010, 28 (11) :469-472