构建数据仓库过程中的数据清洗研究

被引:19
作者
刘喜文 [1 ]
郑昌兴 [1 ,2 ]
王文龙 [1 ]
汤刚强 [1 ]
机构
[1] 南京大学信息管理学院
[2] 南京政治学院基础部
关键词
数据清洗; 脏数据; 异常数据检测; 重复记录检测;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
文章对构建数据仓库中的数据清洗研究现状进行了论述。介绍了脏数据的类型与出现原因、数据清洗在国内外的研究现状、定义和对象,重点阐述了属性级异常数据和记录级异常数据的检测与处理算法;总结当前数据清洗研究的不足,并对今后数据清洗的研究进行展望。
引用
收藏
页码:22 / 28
页数:7
相关论文
共 33 条
[31]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[32]   一种检测多语言文本相似重复记录的综合方法 [J].
俞荣华 ;
田增平 ;
周傲英 .
计算机科学, 2002, (01) :118-121
[33]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77