一种基于VSM的检测相似重复记录的方法

被引：9

作者：

张昌年

机构：

[1] 北京科技大学信息工程学院

来源：

微电子学与计算机 | 2008年 / 08期

基金：

北京市自然科学基金;

关键词：

空间向量模型; 聚类; 相似重复记录; 权重; 优先队列;

D O I：

10.19304/j.cnki.issn1000-7180.2008.08.048

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的.

引用

页码：184 / 187

页数：4

共 5 条

[1] 一种检测汉语相似重复记录的有效方法
程国达
苏杭丽
[J]. 计算机应用, 2005, (06) : 1362 - 1365
[2] 数据质量和数据清洗研究综述
郭志懋
周傲英
[J]. 软件学报, 2002, (11) : 2076 - 2082
[3] 一种检测多语言文本相似重复记录的综合方法
俞荣华
田增平
周傲英
[J]. 计算机科学, 2002, (01) : 118 - 121
[4] 一种高效的检测相似重复记录的方法
邱越峰
田增平
季文贇
周傲英
[J]. 计算机学报, 2001, (01) : 69 - 77
[5] Data cleaning: problems and current approaches. RAHM E, HONG HD. IEEE Transactions on Knowledge and Data Engineering . 2000

← 1 →