共 34 条
相似重复记录清理方法研究综述
被引:18
作者:

叶焕倬
论文数: 0 引用数: 0
h-index: 0
机构: 中南财经政法大学信息与安全工程学院信息系

吴迪
论文数: 0 引用数: 0
h-index: 0
机构: 中南财经政法大学信息与安全工程学院信息系
机构:
[1] 中南财经政法大学信息与安全工程学院信息系
来源:
关键词:
相似重复记录;
数据清洗;
检测算法;
清除算法;
D O I:
暂无
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。
引用
收藏
页码:56 / 66
页数:11
相关论文
共 34 条
- [1] 基于整体和局部相似性的序列聚类算法[J]. 软件学报, 2010, 21 (04) : 702 - 717论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构:熊赟论文数: 0 引用数: 0 h-index: 0机构: 复旦大学计算机科学技术学院
- [2] 数据仓库中重复记录清理算法研究[J]. 信息化纵横, 2009, 28 (07) : 4 - 6钟嘉庆论文数: 0 引用数: 0 h-index: 0机构: 燕山大学电气工程学院论文数: 引用数: h-index:机构:卢志刚论文数: 0 引用数: 0 h-index: 0机构: 燕山大学电气工程学院
- [3] 审计软件现状及发展趋势研究[J]. 计算机科学, 2009, 36 (02) : 1 - 4+25陈伟论文数: 0 引用数: 0 h-index: 0机构: 南京审计学院信息管理系 江苏省审计信息工程重点建设实验室 南京审计学院信息管理系QIU Robin论文数: 0 引用数: 0 h-index: 0机构: 宾夕法尼亚州立大学信息科学系 南京审计学院信息管理系
- [4] 基于无监督学习的数据清洗算法[J]. 吉林大学学报(信息科学版), 2008, 26 (06) : 599 - 604论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构:
- [5] 基于改进编辑距离和依存文法的汉语句子相似度计算[J]. 计算机应用与软件, 2008, (07) : 33 - 34+47刘宝艳论文数: 0 引用数: 0 h-index: 0机构: 大连理工大学计算机科学与工程系论文数: 引用数: h-index:机构:赵晶论文数: 0 引用数: 0 h-index: 0机构: 大连理工大学计算机科学与工程系
- [6] 一种基于网格密度与空间划分树的聚类算法[J]. 系统工程理论与实践, 2008, (07) : 125 - 131+137论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构:刘力丰论文数: 0 引用数: 0 h-index: 0机构: 厦门大学信息科学与技术学院模式识别与智能系统研究所 厦门大学信息科学与技术学院模式识别与智能系统研究所
- [7] 数据质量研究综述[J]. 计算机科学, 2008, (02) : 1 - 5+12论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构:董逸生论文数: 0 引用数: 0 h-index: 0机构: 东南大学计算机科学与工程系 中科院软件所基础软件国家工程中心
- [8] 对基于MPN数据清洗算法的改进[J]. 计算机应用与软件, 2008, (02) : 245 - 247李坚论文数: 0 引用数: 0 h-index: 0机构: 杭州电子科技大学郑宁论文数: 0 引用数: 0 h-index: 0机构: 杭州电子科技大学
- [9] 基于编辑距离的XML文档结构聚类的改进算法[J]. 微计算机应用, 2008, (02) : 88 - 91龚安论文数: 0 引用数: 0 h-index: 0机构: 中国石油大学计算机与通信工程学院论文数: 引用数: h-index:机构:
- [10] DBSCAN聚类算法的研究与改进[J]. 中国矿业大学学报, 2008, (01) : 105 - 111论文数: 引用数: h-index:机构:论文数: 引用数: h-index:机构: