大数据量的高效重复记录检测方法

被引:16
作者
庞雄文 [1 ]
姚占林 [2 ]
李拥军 [2 ]
机构
[1] 华南师范大学计算机学院
[2] 华南理工大学计算机科学与工程学院
基金
广东省自然科学基金;
关键词
数据处理; 重复记录检测; 检测方法; 概念依赖图; 数据清洗;
D O I
10.13245/j.hust.2010.02.033
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法.根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率.实验数据显示在大数据量情况下,计算效率提高47%.
引用
收藏
页码:8 / 11
页数:4
相关论文
共 5 条
[1]   一种改进的相似重复记录检测方法 [J].
朱恒民 ;
王宁生 .
控制与决策 , 2006, (07) :805-808+813
[2]   一种大数据量的相似记录检测方法 [J].
韩京宇 ;
徐立臻 ;
董逸生 .
计算机研究与发展, 2005, (12) :2206-2212
[3]  
Generic entity resolution with negative rules[J] . Steven Euijong Whang,Omar Benjelloun,Hector Garcia-Molina.The VLDB Journal . 2009 (6)
[4]   Duplicate detection algorithms of bibliographic descriptions [J].
Sitas, Anestis ;
Kapidakis, Sarantos .
LIBRARY HI TECH, 2008, 26 (02) :287-301
[5]  
Swoosh: a generic approach to entity resolution[J] . Omar Benjelloun,Hector Garcia-Molina,David Menestrina,Qi Su,Steven Euijong Whang,Jennifer Widom.The VLDB Journal . 2009 (1)