基于对象的OpenXML复合文件去重方法研究

被引:17
作者
阎芳 [1 ,2 ]
李元章 [1 ]
张全新 [1 ]
谭毓安 [1 ]
机构
[1] 北京理工大学计算机学院
[2] 北京物资学院信息学院
关键词
变长分块; 对象; 非结构化数据; OpenXML标准; 复合文件; 重复数据删除;
D O I
暂无
中图分类号
TP333 [存贮器];
学科分类号
081201 ;
摘要
现有的重复数据删除技术大部分是基于变长分块(content defined chunking,CDC)算法的,不考虑不同文件类型的内容特征.这种方法以一种随机的方式确定分块边界并应用于所有文件类型,已经证明其非常适合于文本和简单内容,而不适合非结构化数据构成的复合文件.分析了OpenXML标准的复合文件属性,给出了对象提取的基本方法,并提出基于对象分布和对象结构的去重粒度确定算法.目的是对于非结构化数据构成的复合文件,有效地检测不同文件中和同一文件不同位置的相同对象,在文件物理布局改变时也能够有效去重.通过对典型的非结构化数据集合的模拟实验表明,在综合情况下,对象重复数据删除比CDC方法提高了10%左右的非结构化数据的去重率.
引用
收藏
页码:1546 / 1557
页数:12
相关论文
共 8 条
[1]   一种适于云存储的数据确定性删除方法 [J].
王丽娜 ;
任正伟 ;
余荣威 ;
韩凤 ;
董永峰 .
电子学报, 2012, 40 (02) :266-272
[2]   重复数据删除关键技术研究进展 [J].
付印金 ;
肖侬 ;
刘芳 .
计算机研究与发展, 2012, (01) :12-20
[3]   异质存储系统中的高速缓存机制研究 [J].
王超 ;
张惠臻 ;
周学海 ;
马宏星 .
电子学报, 2011, 39 (06) :1267-1271
[4]   重复数据删除技术 [J].
敖莉 ;
舒继武 ;
李明强 .
软件学报, 2010, 21 (05) :916-929
[5]  
A Method of Object-based De-duplication[J] . Fang Yan,YuAn Tan.Journal of Networks . 2011 (12)
[6]  
Models of parallel computation: a survey and classification[J] . Yunquan Zhang,Guoliang Chen,Guangzhong Sun,Qiankun Miao.Frontiers of Computer Science in China . 2007 (2)
[7]  
Improving duplicate elimination in storage systems[J] . Deepak R. Bobbarjung,Suresh Jagannathan,Cezary Dubnicki.ACM Transactions on Storage (TOS) . 2006 (4)
[8]  
Bimodal Content Defined Chunking for BackupStreams. Kruus E,Ungureanu C,Dubnicki C. Proceedings of the8th USENIX Conference on File and StorageTechnologies . 2010