基于HDFS的小文件存储方法的研究

被引:0
作者
董其文
机构
[1] 大连海事大学
关键词
HDFS; 数据特征; 小文件; 存储;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着科学技术的不断发展,数字信息正在呈现爆炸式的增长,传统的存储方式已不能满足海量数据的需求。如何高效的处理和存储海量数据成为一个亟待解决的问题。目前,很多大型企业都利用HDFS(Hadoop Distributed File System)来存储海量数据。最初的HDFS被设计为适合存储大文件的文件系统,其在存储大文件时具有良好的可靠性和拓展性。但随着互联网的不断发展,HDFS开始应用于海量小文件的存储,其存在的缺点和不足逐渐暴露出来。海量数据中的小文件存储成为制约HDFS整体性能的瓶颈. 本文主要研究HDFS存储小文件的问题。针对HDFS存储前的小文件处理工作和存储后的检索,提出了三个算法。算法一,基于特征类型的顺序表小文件合并算法。该算法在研究现有的小文件合并方法的基础上,通过获取小文件数据特征,然后根据其数据特征所属的特征类型,对小文件进行流水式的合并,并建立基于文件名的索引文件交由NameNode统一管理。算法二,基于数据特征的DataNode预分配算法。该算法的目的是提高NameNode的工作效率和减少其因负载过重对整个HDFS造成的性能影响。算法三,基于访问频率的小文件检索算法。该算法借鉴了虚拟存储和页面置换的思想,用户检索时将索引文件载入虚拟内存并且根据索引文件的访问频率进行索引文件的置换,从而实现从海量的索引文件中快速查找到需要的小文件。 通过在实验室集群上搭建Hadoop实验环境,设计了三种不同的实验用例,对我们提出的三个算法进行了系统的测试。实验结果表明:我们提出的三个算法有效地提高了HDFS对小文件的存储和读取效率,并且优化了整个HDFS的存储性能。
引用
收藏
页数:78
共 17 条
[1]
一种结合RDBMS和Hadoop的海量小文件存储方法 [J].
刘小俊 ;
徐正全 ;
潘少明 .
武汉大学学报(信息科学版), 2013, 38 (01) :113-115+120
[2]
基于MapReduce的蚁群算法 [J].
吴昊 ;
倪志伟 ;
王会颖 .
计算机集成制造系统, 2012, 18 (07) :1503-1509
[3]
[4]
云数据中心操作系统副本分布算法的设计与实现 [J].
颜秉珩 ;
张明富 ;
张俊 .
计算机应用与软件, 2011, 28 (11) :290-293
[5]
一种基于云存储的移动终端网络存储设计 [J].
陶长顺 .
计算机应用与软件, 2011, 28 (10) :187-190
[6]
基于Hadoop架构的分布式计算和存储技术及其应用 [J].
田秀霞 ;
周耀君 ;
毕忠勤 ;
彭源 .
上海电力学院学报, 2011, 27 (01) :70-74
[7]
云计算:系统实例与研究现状 [J].
陈康 ;
郑纬民 .
软件学报, 2009, 20 (05) :1337-1348
[8]
COSMOS文件系统的性能分析 [J].
杜聪 ;
徐志伟 .
计算机学报, 2001, (07) :702-709
[9]
WebGIS实现技术及发展研究 [J].
彭明军 ;
李宗华 ;
杨存吉 .
测绘信息与工程, 2001, (01) :41-44
[10]
The Google file system.[J].Sanjay Ghemawat;Howard Gobioff;Shun-Tak Leung.ACM SIGOPS Operating Systems Review.2003, 5