一种高性能HDFS存储平台的研究与实现

被引:0
作者
王磊
机构
[1] 西安电子科技大学
关键词
云计算; HDFS高可用性; Erasure Code; 小文件存储;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
近年来,云计算成为了互联网行业最热的话题之一。由于其高可靠性,高吞吐量及高可扩展性, Hadoop分布式文件系统HDFS成为了主流的云计算平台的底层存储系统,政府、高校、科研机构或者企事业单位均先后使用HDFS作为其集群的存储平台。然而,尽管HDFS有着良好的表现,其在性能上仍然存在明显的问题。比如NameNode的单点失效,数据存储空间浪费,小文件存储效率低等。现阶段的国内外研究往往仅针对上述单个问题作出分析与研究,没有系统地将HDFS的性能问题进行整合与改进。 本文针对这些问题,设计与实现了一个高性能的HDFS存储平台。平台采用内存与硬盘的双重元数据备份机制,在保证NameNode高可用性的同时,降低了集群因NameNode宕机失效所需的恢复时间;在数据的存储上,平台采用基于ErasureCode的编码存储技术,对文件分块后的block数据进行编码存储,降低了集群的副本数量,提高了存储空间的利用率;平台也对HDFS存储小文件效率低的问题作出了改进,采用Hadoop提供的HAR文件格式,将小文件打包上传,减轻了NameNode的元数据存储压力,也同时提高了小文件的读写速度。 文章最后通过一系列的实验来验证高性能HDFS存储平台在可用性,存储效率上的优势,满足了系统的设计要求。
引用
收藏
页数:76
共 5 条
[1]
基于Erasure Code的分布式文件存储系统 [J].
潘利伟 ;
谷建华 ;
朱靖飞 ;
周志超 .
计算机工程, 2010, 36 (17) :45-47
[2]
分布计算系统.[M].徐高潮等[编著];.高等教育出版社.2004,
[3]
Facebook..Avatar Node;.https://github.com/facebook/hadoop-20/tree/master/src.,
[4]
REO: a generic RAID engine and optimizer..Kenchammana-Hosekote D;He D;Hafner J. L;.Proceedings of the 5th USENIX Conference on File and Storage Technologies.2007,
[5]
Windows Azurestorage: A highly available cloud storage service with strong consistency..B. Calder;J. Wang;A. Ogus;N. Nilakantan;A. Skjolsvold; et al;.Symposium on Operating Systems Principles.2011,