重复数据删除技术

被引:118
作者
敖莉 [1 ]
舒继武 [1 ,2 ]
李明强 [1 ]
机构
[1] 清华大学计算机科学与技术系
[2] 不详
基金
高等学校博士学科点专项科研基金;
关键词
网络存储系统; 重复数据; 数据删除; 可靠性; 性能;
D O I
暂无
中图分类号
TP309.3 [数据备份与恢复];
学科分类号
摘要
重复数据删除技术主要分为两类:相同数据的检测技术和相似数据的检测与编码技术,系统地总结了这两类技术,并分析了其优缺点.此外,由于重复数据删除技术会影响存储系统的可靠性和性能,又总结了针对这两方面的问题提出的各种技术.通过对重复数据删除技术当前研究现状的分析,得出如下结论:a)重复数据删除中的数据特性挖掘问题还未得到完全解决,如何利用数据特征信息有效地消除重复数据还需要更深入的研究;b)从存储系统设计的角度,如何引入恰当的机制打破重复数据删除技术的可靠性局限并减少重复数据删除技术带来的额外系统开销也是一个需要深入研究的方面.
引用
收藏
页码:916 / 929
页数:14
相关论文
共 9 条
[1]  
Improving duplicate elimination in storage systems[J] . Deepak R. Bobbarjung,Suresh Jagannathan,Cezary Dubnicki.ACM Transactions on Storage (TOS) . 2006 (4)
[2]   Compressed bloom filters [J].
Mitzenmacher, M .
IEEE-ACM TRANSACTIONS ON NETWORKING, 2002, 10 (05) :604-612
[3]  
Effective erasure codes for reliable computer communication protocols[J] . Luigi Rizzo.ACM SIGCOMM Computer Communication Review . 1997 (2)
[4]  
RAID: high-performance, reliable secondary storage[J] . Peter M. Chen,Edward K. Lee,Garth A. Gibson,Randy H. Katz,David A. Patterson.ACM Computing Surveys (CSUR) . 1994 (2)
[5]   THE STRING-TO-STRING CORRECTION PROBLEM WITH BLOCK MOVES [J].
TICHY, WF .
ACM TRANSACTIONS ON COMPUTER SYSTEMS, 1984, 2 (04) :309-321
[6]  
A fast algorithm for computing longest common subsequences[J] . James W. Hunt,Thomas G. Szymanski.Communications of the ACM . 1977 (5)
[7]   SPACE/TIME TRADE/OFFS IN HASH CODING WITH ALLOWABLE ERRORS [J].
BLOOM, BH .
COMMUNICATIONS OF THE ACM, 1970, 13 (07) :422-&
[8]  
Secure Hash Standard,Federal Information Processing Standard(FIPs)Publication180-2 .2 National Institute of Standards and Technology(NIST). . 2002
[9]  
Providing high reliability in a minimum redundancy archival storage system .2 Bhagwat D,Pollack K,Long DDE,Schwarz T,Miller EL,Paris JF. Proc.of the14th Int’l Symp.on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems(MASCOTS2006) . 2006