一种基于聚类树的增量式数据清洗算法

被引:3
作者
刘芳
何飞
机构
[1] 华中科技大学计算机科学与技术学院
[2] 华中科技大学计算机科学与技术学院 湖北武汉
[3] 湖北武汉
关键词
数据清洗; 近似重复记录; 聚类树;
D O I
10.13245/j.hust.2005.03.015
中图分类号
TP311 [程序设计、软件工程];
学科分类号
081202 ; 0835 ;
摘要
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .
引用
收藏
页码:46 / 48
页数:3
相关论文
共 2 条
[1]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[2]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)