数据质量研究综述

被引:100
作者
韩京宇 [1 ]
徐立臻 [2 ]
董逸生 [2 ]
机构
[1] 中科院软件所基础软件国家工程中心
[2] 东南大学计算机科学与工程系
关键词
数据质量; 数据清洗; 机器学习; 数据审计;
D O I
暂无
中图分类号
TP315 [管理程序、管理系统];
学科分类号
1201 ;
摘要
数据质量管理是信息系统建设的首要问题。本文首先回顾了数据质量的定义和质量提高策略的分类,然后对数据质量研究涉及的两个主要方面,即数据质量评估和数据质量提高技术的各种方法进行了比较和分析,并对有代表性的数据质量提高工具进行了介绍。最后提出了一个评估驱动的数据质量提高框架,并对数据质量研究方向进行了展望。
引用
收藏
页码:1 / 5+12 +12
页数:6
相关论文
共 11 条
  • [1] 一种大数据量的相似记录检测方法
    韩京宇
    徐立臻
    董逸生
    [J]. 计算机研究与发展, 2005, (12) : 2206 - 2212
  • [2] 一种高效的检测相似重复记录的方法
    邱越峰
    田增平
    季文贇
    周傲英
    [J]. 计算机学报, 2001, (01) : 69 - 77
  • [3] Methods for evaluating and creating data quality
    Winkler, WE
    [J]. INFORMATION SYSTEMS, 2004, 29 (07) : 531 - 550
  • [4] A Bayesian decision model for cost optimal record matching
    Verykios, VS
    Moustakides, GV
    Elfeky, MG
    [J]. VLDB JOURNAL, 2003, 12 (01) : 28 - 40
  • [5] Learning missing values from summary constraints[J] . Xintao Wu,Daniel Barbará.ACM SIGKDD Explorations Newsletter . 2002 (1)
  • [6] A knowledge-based approach for duplicate elimination in data cleaning
    Low, WL
    Lee, ML
    Ling, TW
    [J]. INFORMATION SYSTEMS, 2001, 26 (08) : 585 - 606
  • [7] Discovering and reconciling value conflicts for numerical data integration
    Fan, WG
    Lu, HJ
    Madnick, SE
    Cheung, D
    [J]. INFORMATION SYSTEMS, 2001, 26 (08) : 635 - 656
  • [8] The Asilomar report on database research[J] . Phil Bernstein,Michael Brodie,Stefano Ceri,David DeWitt,Mike Franklin,Hector Garcia-Molina,Jim Gray,Jerry Held,Joe Hellerstein,H. V. Jagadish,Michael Lesk,Dave Maier,Jeff Naughton,Hamid Pirahesh,Mike Stonebraker,Jeff Ullman.ACM SIGMOD Record . 1998 (4)
  • [9] Data quality in context
    Strong, DM
    Lee, YW
    Wang, RY
    [J]. COMMUNICATIONS OF THE ACM, 1997, 40 (05) : 103 - 110
  • [10] TECHNIQUES FOR AUTOMATICALLY CORRECTING WORDS IN TEXT
    KUKICH, K
    [J]. COMPUTING SURVEYS, 1992, 24 (04) : 377 - 439