面向大数据分析的分布式文件系统关键技术

被引:71
作者
周江 [1 ,2 ,3 ]
王伟平 [3 ]
孟丹 [3 ]
马灿 [3 ]
古晓艳 [1 ,2 ,3 ]
蒋杰 [4 ]
机构
[1] 中国科学院计算技术研究所计算机应用研究中心
[2] 中国科学院大学
[3] 中国科学院信息工程研究所
[4] 腾讯公司数据平台部
关键词
大数据; 海量数据存储; 分布式文件系统; 元数据可扩展性; 高可用性;
D O I
暂无
中图分类号
TP333 [存贮器]; TP316.4 [分布式操作系统、并行式操作系统];
学科分类号
摘要
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统.
引用
收藏
页码:382 / 394
页数:13
相关论文
共 7 条
  • [1] CEPH动态元数据管理方法分析与改进
    冯幼乐
    朱六璋
    [J]. 电子技术, 2010, 47 (09) : 1 - 3
  • [2] DCFS2的元数据一致性策略
    熊劲
    范志华
    马捷
    唐荣锋
    李晖
    孟丹
    不详
    [J]. 计算机研究与发展 , 2005, (06) : 1019 - 1027
  • [3] RAMA: An easy-to-use, high-performance parallel file system[J] . Ethan L. Miller,Randy H. Katz.Parallel Computing . 1997 (4)
  • [4] The Vesta parallel file system
    Corbett, PF
    Feitelson, DG
    [J]. ACM TRANSACTIONS ON COMPUTER SYSTEMS, 1996, 14 (03): : 225 - 264
  • [5] Distributed snapshots[J] . K. Mani Chandy,Leslie Lamport.ACM Transactions on Computer Systems (TOCS) . 1985 (1)
  • [6] Extendible hashing—a fast access method for dynamic files[J] . Ronald Fagin,Jurg Nievergelt,Nicholas Pippenger,H. Raymond Strong.ACM Transactions on Database Systems (TODS) . 1979 (3)
  • [7] The Sprite network operating system. Ousterhout, J.K,Cherenson, A.R,Douglis, F,Nelson, M.N,Welch, B.B. Computer . 1988