对基于MPN数据清洗算法的改进

被引:13
作者
李坚
郑宁
机构
[1] 杭州电子科技大学
关键词
数据清洗; 相似重复记录; MPN;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据。介绍了该问题的流行算法—多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大。二是采用传递闭包,容易引起误识别。提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法。
引用
收藏
页码:245 / 247
页数:3
相关论文
共 2 条
[1]   一种使用双阈值的数据仓库环境下重复记录消除算法 [J].
洪圆 ;
孙未未 ;
施伯乐 ;
不详 .
计算机工程与应用 , 2005, (01) :168-170+216
[2]   关系数据库中近似重复记录的识别 [J].
佘春红 ;
许向阳 .
计算机应用研究, 2003, (09) :36-39