数据质量和数据清洗研究综述

被引:273
作者
郭志懋
周傲英
机构
[1] 复旦大学计算机科学与工程系
[2] 复旦大学智能信息处理开放实验室
关键词
数据质量; 数据清洗; 数据集成; 相似重复记录; 数据清洗框架;
D O I
10.13328/j.cnki.jos.2002.11.003
中图分类号
TP311.12 [];
学科分类号
摘要
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.
引用
收藏
页码:2076 / 2082
页数:7
相关论文
共 4 条
  • [1] 一种检测多语言文本相似重复记录的综合方法
    俞荣华
    田增平
    周傲英
    [J]. 计算机科学, 2002, (01) : 118 - 121
  • [2] 一种高效的检测相似重复记录的方法
    邱越峰
    田增平
    季文贇
    周傲英
    [J]. 计算机学报, 2001, (01) : 69 - 77
  • [3] Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)
  • [4] Data Cleaning And Integration .2 GALHARDAS,H. HTTP://CARAVEL.INRIA.FR/~GALHARDA/CLEANING.HTML . 2001