一种大数据量的相似记录检测方法

被引：32

作者：

韩京宇

徐立臻

董逸生

机构：

[1] 东南大学计算机科学与工程系

来源：

计算机研究与发展 | 2005年 / 12期

关键词：

数据清洗; q-gram; 相似重复记录; 层次聚类;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

大数据量的相似重复记录检测是数据清洗中的一个重要问题,提出一种基于q-gram层次空间的聚类检测方法:它首先将数据映射成q-gram空间中的点,并根据q-gram空间中的相似性度量采用层次聚类方法将相似的重复记录检测出来·它克服了传统的“排序&合并”方法由于字符位置敏感不能将相似记录字符串排在邻近位置的不足和大数量外排序引起I/O代价过大的问题·理论分析和实验表明,方法不仅具有好的检测精度,且有好的伸缩性,能够有效地解决大数据量的相似重复记录检测·

引用

页码：2206 / 2212

页数：7