基于优先队列的增量式重复记录识别

被引:7
作者
佘春红
机构
[1] 荆州师范学院信息科学学院湖北荆州
关键词
数据清理; 近似重复记录; 增量式识别; 特征记录;
D O I
暂无
中图分类号
TP311.131 [];
学科分类号
1201 ;
摘要
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
引用
收藏
页码:61 / 63
页数:3
相关论文
共 1 条
[1]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)