一种Hadoop小文件存储和读取的方法

被引:38
作者
张春明 [1 ,2 ]
芮建武 [1 ]
何婷婷 [1 ,2 ]
机构
[1] 中国科学院软件研究所基础软件国家工程中心
[2] 中国科学院研究生院
关键词
HDFS; 小文件; HIFM; 分层索引; 索引预加载; 数据预取;
D O I
暂无
中图分类号
TP333 [存贮器];
学科分类号
摘要
HDFS(Hadoop Distributed File System)凭借其高容错、可伸缩和廉价存储的优点,在当前面向云计算的应用场景中得到了广泛应用。然而,HDFS设计的初衷是存储超大文件,对于海量小文件,由于NameNode内存开销等问题,其存储和读取性能并不理想。提出一种基于小文件合并的方法 HIFM(Hierarchy Index File Merging),综合考虑小文件之间的相关性和数据的目录结构,来辅助将小文件合并成大文件,并生成分层索引。采用集中存储和分布式存储相结合的方式管理索引文件,并实现索引文件预加载。此外,HIFM采用数据预取的机制,提高顺序访问小文件的效率。实验结果表明,HIFM方法能够有效提高小文件存储和读取效率,显著降低NameNode和DataNode的内存开销,适合应用在有一定目录结构的海量小文件存储的应用场合。
引用
收藏
页码:95 / 100
页数:6
相关论文
共 9 条
  • [1] A Novel Approach to Impro-ving the Efficiency of Storing and Accessing Small Files on Hadoop:aCase Study by PowerPoint Files. Bo Dong,Jie Qiu,Qinghua Zheng,et al. International Conference onServices Computing . 2010
  • [2] Implementing WebGIS on Hadoop: A Case Study of Improving Small File I/O Performance on HDFS. Xuhui Liu,Jizhong Han,Yunqin Zhong,Chengde Han. Cluster Computing and Workshops, 2009 CLUSTER‘09 .
  • [3] The Hadoop Distributed File System. K. Shvachko,H. Kuang,S. Radia,R. Chansler. Mass Storage Systems and Technologies (MSST) 2010 IEEE . 2010
  • [4] The Small Files Problem. Tom White. http://www.cloudera.com/blog/2009/02/the-small-files-problem/ . 2009
  • [5] Above the Clouds:A BerkeleyView of Cloud Computing. Armbrust M,Fox A,Griffith R,et al. UCB/EECS-2009-28 . 2009
  • [6] Hadooparchives[OL]. http://hadoop.apache.org/common/docs/cur-rent/hadoop_archives.html .
  • [7] Sequence File Wiki[OL]. http://wiki.apache.org/hadoop/Seq uence File .
  • [8] The Definitive Guide. White T Hadoop. . 2011
  • [9] Map files[OL]. http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/MapFile.html .