基于聚类分析技术的数据清洗研究

被引:11
作者
刘芳
何飞
机构
[1] 华中科技大学计算机科学与技术学院
[2] 华中科技大学计算机科学与技术学院 湖北武汉
[3] 湖北武汉
关键词
数据清洗; 近似重复记录; 聚类; ICAD;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。
引用
收藏
页码:70 / 71+77 +77
页数:3
相关论文
共 2 条
[1]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[2]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)