基于内码序值聚类的相似重复记录检测方法

被引：7

作者：

鲁均云

李星毅

施化吉

马素琴

机构：

[1] 江苏大学计算机科学与通信工程学院

来源：

计算机应用研究 | 2010年 / 27卷 / 03期

关键词：

相似重复记录; 内码序值; 聚类; 等级法;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题。

引用

页码：874 / 878

页数：5

共 6 条

[1] 位置编码在数据仓库ETL中的应用 [J].

张永 ;

迟忠先 .

计算机工程, 2007, (01) :50-52

[2] 一种检测汉语相似重复记录的有效方法 [J].

程国达 ;

苏杭丽 .

计算机应用, 2005, (06) :1362-1365

[3] 一种检测多语言文本相似重复记录的综合方法 [J].

俞荣华 ;

田增平 ;

周傲英 .

计算机科学, 2002, (01) :118-121

[4] 一种高效的检测相似重复记录的方法 [J].

邱越峰 ;

田增平 ;

季文贇 ;

周傲英 .

计算机学报, 2001, (01) :69-77

[5]

数据挖掘[M]. 机械工业出版社 , (加)JiaweiHan, 2001

[6]

A d istance-based approach toentity reconc iliation in heterogeneous databases .2 Dey D,Sarkar S,De P. IEEE Transactions on Know ledge and Data Engineering . 2002

← 1 →