一种XML相似重复数据的清理方法研究

被引：8

作者：

陈伟

丁秋林

机构：

[1] 南京航空航天大学计算机应用研究所

来源：

北京航空航天大学学报 | 2004年 / 09期

关键词：

规则库; 算法库; 数据清理; 可扩展标记语言; 相似重复数据;

D O I：

10.13700/j.bh.1001-5965.2004.09.008

中图分类号：

TP311.52 [];

学科分类号：

摘要：

针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,该算法能有效地检测XML相似重复数据 ;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法 ,避免了不必要的树编辑距离计算 ,降低了相似检测计算的复杂度 ,提高了运算效率 .此工作为研究XML相似重复数据清理打下基础

引用

页码：835 / 838

页数：4

共 5 条

[1]

Treepatternmatching. ZhangK,ShashaD. . 1997

[2]

Declarativedataclean ing:language,model,andalgorithms. GalhardasH,FlorescuD,ShashaD ,etal. Proceedingsofthe27thVLDBConference . 2001

[3]

Data cleaning: problems and current approaches. Rahm E,Do H H. IEEE Data Engineering Bulletin . 2000

[4]

Matching algorithms within a duplicate detection system. Monge A E. IEEE Data Engineering Bulletin . 2000

[5]

Approximate XML joins. Guha S,Jagadish H V,Koudas N,et al. In: Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data . 2002

← 1 →