一种基于VSM的检测相似重复记录的方法

被引:9
作者
张昌年
机构
[1] 北京科技大学信息工程学院
基金
北京市自然科学基金;
关键词
空间向量模型; 聚类; 相似重复记录; 权重; 优先队列;
D O I
10.19304/j.cnki.issn1000-7180.2008.08.048
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的.
引用
收藏
页码:184 / 187
页数:4
相关论文
共 5 条