基于聚类分析技术的数据清洗研究

被引：11

作者：

刘芳

何飞

机构：

[1] 华中科技大学计算机科学与技术学院

[2] 华中科技大学计算机科学与技术学院湖北武汉

[3] 湖北武汉

来源：

计算机工程与科学 | 2005年 / 06期

关键词：

数据清洗; 近似重复记录; 聚类; ICAD;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。

引用

页码：70 / 71+77 +77

页数：3