随着现代地理空间信息技术的快速发展,带来了空间数据集规模的急剧膨胀。面对如此海量和复杂的空间数据集,迫切需要一种能够对其进行高效的组织、存储、处理与管理的技术解决方案。Hadoop提供了海量的数据存储能力和支持并行计算的编程模型,为实现海量空间数据的存储与计算一体化提供强大的平台支持。本文基于开源Hadoop软件框架对海量空间数据的高效存储管理开展了以下研究:(1)深入分析了当前海量空间数据的存储管理方法,总结了每种方法的优缺点,为下一步研究提供坚实的理论依据。详细介绍了Hadoop架构体系的三大核心技术,分布式文件系统HDFS,并行编程模型MapReduce和分布式数据库HBase。(2)深入研究了HDFS的文件存储机制,结合简单矢量数据结构,设计了适合在HDFS中存储矢量数据的存储模式,在此基础上实现最基本的矢量空间操作。针对传统射线法不适合批量点包含判断的问题,同时为避免射线法的大量求交运算,对射线法进行改进,并通过MapReduce并行编程模型加以实现。最后,利用分布式数据库HBase管理经MapReduce编程模型处理输出的矢量数据。(3)通过比较现有Hadoop小文件存储解决方法,设计了一种基于MapFile序列文件技术的海量栅格数据存储模式,实现海量栅格数据在HDFS的高效存储,并利用HBase数据库表管理海量栅格数据,提高了海量栅格数据的存储与读写效率。为实现图像的并行聚类,通过MapReduce编程模型对K均值聚类算法进行并行化设计,缩短了聚类时间。(4)搭建Hadoop计算平台,开展了基于分布式集群的海量点包含性测试、海量栅格数据存储性能测试、图像聚类等实验,证明本文设计的存储模式能够为海量空间数据的高效处理提供支持。