相似重复记录清理方法研究综述

被引:18
作者
叶焕倬
吴迪
机构
[1] 中南财经政法大学信息与安全工程学院信息系
关键词
相似重复记录; 数据清洗; 检测算法; 清除算法;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。
引用
收藏
页码:56 / 66
页数:11
相关论文
共 34 条