一种改进的相似重复记录检测方法

被引:12
作者
朱恒民
王宁生
机构
[1] 不详
[2] 南京航空航天大学CIMS工程中心
[3] 不详
关键词
相似重复记录; 优先队列; 聚类; 数据清洗; 数据预处理;
D O I
10.13195/j.cd.2006.07.87.zhuhm.019
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对当前相似重复记录检测方法中存在的问题,提出一种改进方法.该方法根据关系表的决定属性值划分记录集,并在每个决定属性值类中检测相似重复记录.在决定属性值聚类时,提出了动态优先队列聚类算法和合并逆序算法,尽可能使相似重复的属性值聚为同一类;在记录聚类时提出了类调整算法,以提高类的代表记录的代表性.通过大量的实验分析,验证了该方法的有效性.
引用
收藏
页码:805 / 808+813 +813
页数:5
相关论文
共 1 条
[1]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77