共 2 条
对基于MPN数据清洗算法的改进
被引:13
作者:
李坚
郑宁
机构:
[1] 杭州电子科技大学
来源:
关键词:
数据清洗;
相似重复记录;
MPN;
D O I:
暂无
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
相似重复记录的清除是数据清洗领域中的一个很重要的方面,它的目的是清除冗余的数据。介绍了该问题的流行算法—多趟近邻排序算法MPN(Multi-Pass Sorted Neighborhood),该算法能较好地对相似重复记录进行清除,但也有其不足:一是在识别中窗口大小固定,窗口的大小选取对结果影响很大。二是采用传递闭包,容易引起误识别。提出了基于MPN算法的一种改进算法,试验结果证明改进算法在记忆率和准确率上优于MPN算法。
引用
收藏
页码:245 / 247
页数:3
相关论文