数据清理方法

被引:5
作者
佘春红
机构
[1] 荆州师范学院信息科学学院湖北荆州
关键词
数据清理; 重复记录识别; 预处理;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。
引用
收藏
页码:128 / 130
页数:3
相关论文
共 1 条
[1]  
An adaptive and efficient algorithm for detecting approximately duplicate database records. Monge A. E. Submitted for journal publication, June . 2000