一种XML相似重复数据的清理方法研究

被引:8
作者
陈伟
丁秋林
机构
[1] 南京航空航天大学计算机应用研究所
关键词
规则库; 算法库; 数据清理; 可扩展标记语言; 相似重复数据;
D O I
10.13700/j.bh.1001-5965.2004.09.008
中图分类号
TP311.52 [];
学科分类号
摘要
针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,该算法能有效地检测XML相似重复数据 ;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法 ,避免了不必要的树编辑距离计算 ,降低了相似检测计算的复杂度 ,提高了运算效率 .此工作为研究XML相似重复数据清理打下基础
引用
收藏
页码:835 / 838
页数:4
相关论文
共 5 条
[1]  
Treepatternmatching. ZhangK,ShashaD. . 1997
[2]  
Declarativedataclean ing:language,model,andalgorithms. GalhardasH,FlorescuD,ShashaD ,etal. Proceedingsofthe27thVLDBConference . 2001
[3]  
Data cleaning: problems and current approaches. Rahm E,Do H H. IEEE Data Engineering Bulletin . 2000
[4]  
Matching algorithms within a duplicate detection system. Monge A E. IEEE Data Engineering Bulletin . 2000
[5]  
Approximate XML joins. Guha S,Jagadish H V,Koudas N,et al. In: Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data . 2002