大数据量的高效重复记录检测方法

被引：16

作者：

庞雄文 ^{[1
]}

姚占林 ^{[2
]}

李拥军 ^{[2
]}

机构：

[1] 华南师范大学计算机学院

[2] 华南理工大学计算机科学与工程学院

来源：

华中科技大学学报(自然科学版) | 2010年 / 38卷 / 02期

基金：

广东省自然科学基金;

关键词：

数据处理; 重复记录检测; 检测方法; 概念依赖图; 数据清洗;

D O I：

10.13245/j.hust.2010.02.033

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.

引用

页码：8 / 11

页数：4

共 5 条

[1] 一种改进的相似重复记录检测方法 [J].

朱恒民 ;

王宁生 .

控制与决策 , 2006, (07) :805-808+813

[2] 一种大数据量的相似记录检测方法 [J].

韩京宇 ;

徐立臻 ;

董逸生 .

计算机研究与发展, 2005, (12) :2206-2212

[3]

Generic entity resolution with negative rules[J] . Steven Euijong Whang,Omar Benjelloun,Hector Garcia-Molina.The VLDB Journal . 2009 (6)

[4] Duplicate detection algorithms of bibliographic descriptions [J].

Sitas, Anestis ;

Kapidakis, Sarantos .

LIBRARY HI TECH, 2008, 26 (02) :287-301

[5]

Swoosh: a generic approach to entity resolution[J] . Omar Benjelloun,Hector Garcia-Molina,David Menestrina,Qi Su,Steven Euijong Whang,Jennifer Widom.The VLDB Journal . 2009 (1)

← 1 →