大数据质量管理:问题与研究进展

被引:33
作者
王宏志
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
数据质量; 大数据; 数据清洗;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,因而需要对大数据进行质量管理。尽管数据质量管理方面已经有一些研究成果,但由于大数据具有规模大、速度快和多样性高的特点,现有的方法难以适用于大数据质量管理。本文针对错误发现、错误修复和劣质数据查询处理,综述了大数据质量管理的问题与挑战,认为大数据质量管理的挑战主要有计算困难、错误混杂和缺少知识3个方面。本文依据这3个方面的解决方法,对大数据质量管理目前的研究进展进行了综述,并展望了大数据质量管理未来的研究方向。
引用
收藏
页码:78 / 84
页数:7
相关论文
共 12 条
  • [1] 基于Map-Reduce的大数据缺失值填充算法
    金连
    王宏志
    黄沈滨
    高宏
    [J]. 计算机研究与发展, 2013, 50(S1) (S1) : 312 - 321
  • [2] 大数据的一个重要方面:数据可用性
    李建中
    刘显敏
    [J]. 计算机研究与发展, 2013, 50 (06) : 1147 - 1162
  • [3] 集合和字符串的相似度查询
    林学民
    王炜
    [J]. 计算机学报, 2011, 34 (10) : 1853 - 1862
  • [4] A web-based approach to data imputation
    Li, Zhixu
    Sharaf, Mohamed A.
    Sitbon, Laurianne
    Sadiq, Shazia
    Indulska, Marta
    Zhou, Xiaofang
    [J]. WORLD WIDE WEB-INTERNET AND WEB INFORMATION SYSTEMS, 2014, 17 (05): : 873 - 897
  • [5] Processing k -skyband, constrained skyline, and group-by skyline queries on incomplete data[J] . Yunjun Gao,Xiaoye Miao,Huiyong Cui,Gang Chen,Qing Li.Expert Systems With Applications . 2014 (10)
  • [6] Relative Information Completeness
    Fan, Wenfei
    Geerts, Floris
    [J]. ACM TRANSACTIONS ON DATABASE SYSTEMS, 2010, 35 (04):
  • [7] Conditional functional dependencies for capturing data inconsistencies
    Fan, Wenfei
    Geerts, Floris
    Jia, Xibei
    Kementsietsidis, Anastasios
    [J]. ACM TRANSACTIONS ON DATABASE SYSTEMS, 2008, 33 (02):
  • [8] First-order query rewriting for inconsistent databases[J] . Ariel Fuxman,Renée J. Miller.Journal of Computer and System Sciences . 2006 (4)
  • [9] Scalar aggregation in inconsistent databases[J] . Marcelo Arenas,Leopoldo Bertossi,Jan Chomicki,Xin He,Vijay Raghavan,Jeremy Spinrad.Theoretical Computer Science . 2002 (3)
  • [10] Data cleaning: problems and current approaches .2 Erhard Rahm,Hong Hai Do. IEEE Data Engineering Bulletin . 2000