结构化数据清洗技术综述

被引:77
作者
郝爽 [1 ,2 ]
李国良 [2 ]
冯建华 [2 ]
王宁 [1 ]
机构
[1] 北京交通大学计算机与信息技术学院
[2] 清华大学计算机科学与技术系数据库组
基金
国家重点研发计划;
关键词
数据清洗; 数据噪声; 噪声检测; 噪声消除;
D O I
10.16511/j.cnki.qhdxxb.2018.22.053
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据清洗是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。该文对经典和新兴的数据清洗技术进行分类和总结,为进一步的研究工作提供方向。形式化定义了数据清洗问题,对数据缺失、数据冗余、数据冲突和数据错误这4种数据噪声的检测技术进行详细阐述。按照数据清洗方式对数据噪声的消除技术进行分类概述,包括基于完整性约束的数据清洗算法、基于规则的数据清洗算法、基于统计的数据清洗算法和人机结合的数据清洗算法。介绍了常用的测评数据集和噪声注入工具,并对未来重点的研究方向进行了探讨和展望。
引用
收藏
页码:1037 / 1050
页数:14
相关论文
共 22 条
  • [1] 数据清洗方法研究综述[J].赵一凡,卞良,丛昕. 软件导刊.2017(12)
  • [2] 数据清洗研究综述[J].王曰芬,章成志,张蓓蓓,吴婷婷. 现代图书情报技术.2007(12)
  • [3] 数据质量和数据清洗研究综述[J].郭志懋,周傲英. 软件学报.2002(11)
  • [4] 数据清理综述[J].杨辅祥,刘云超,段智华. 计算机应用研究.2002(03)
  • [5] DependableDataRepairingwithFixingRules[J].JiannanWang,NanTang. JournalofDataandInformationQuality(JDIQ).2017(3-4)
  • [6] MessingupwithBART:errorgenerationforevaluatingdata-cleaningalgorithms[J].ArocenaPatriciaC.,GlavicBoris,MeccaGiansalvatore,MillerRenéeJ.,PapottiPaolo,SantoroDonatello. ProceedingsoftheVLDBEndowment.2015(2)
  • [7] Functionaldependencydiscovery:anexperimentalevaluationofsevenalgorithms[J].PapenbrockThorsten,EhrlichJens,MartenJannik,NeubertTommy,RudolphJanPeer,Sch?nbergMartin,ZwienerJakob,NaumannFelix. ProceedingsoftheVLDBEndowment.2015(10)
  • [8] Stringsimilarityjoins:anexperimentalevaluation[J].JiangYu,LiGuoliang,FengJianhua,LiWenSyan. ProceedingsoftheVLDBEndowment.2014(8)
  • [9] NADEEF:ageneralizeddatacleaningsystem[J].EbaidAmr,ElmagarmidAhmed,IlyasIhabF.,OuzzaniMourad,QuianeRuizJorgeArnulfo,TangNan,YinSi. ProceedingsoftheVLDBEndowment.2013(12)
  • [10] Towardscertainfixeswitheditingrulesandmasterdata[J].WenfeiFan,JianzhongLi,ShuaiMa,NanTang,WenyuanYu. TheVLDBJournal.2012(2)