学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
数据清理方法
被引:5
作者
:
佘春红
论文数:
0
引用数:
0
h-index:
0
机构:
荆州师范学院信息科学学院湖北荆州
佘春红
机构
:
[1]
荆州师范学院信息科学学院湖北荆州
来源
:
计算机应用
|
2002年
/ 12期
关键词
:
数据清理;
重复记录识别;
预处理;
D O I
:
暂无
中图分类号
:
TP311.13 [];
学科分类号
:
1201 ;
摘要
:
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。
引用
收藏
页码:128 / 130
页数:3
相关论文
共 1 条
[1]
An adaptive and efficient algorithm for detecting approximately duplicate database records. Monge A. E. Submitted for journal publication, June . 2000
←
1
→
共 1 条
[1]
An adaptive and efficient algorithm for detecting approximately duplicate database records. Monge A. E. Submitted for journal publication, June . 2000
←
1
→