数据质量及数据清洗方法

被引:32
作者
宋金玉 [1 ]
陈爽 [1 ,2 ]
郭大鹏 [2 ]
王内蒙 [2 ]
机构
[1] 解放军理工大学指挥信息系统学院
[2] 吉林陆军预备役步兵第师
关键词
数据质量; 数据清洗; 清洗方法; 数据清洗工具;
D O I
10.15908/j.cnki.cist.2013.05.018
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据质量问题关系到信息系统建设。首先,概述了数据质量的定义和数据质量问题的分类并总结其来源,介绍了数据质量维度这一数据质量评估指标;然后,说明了不同领域中数据清洗的概念,分析了不同数据质量问题的清洗方法,并归纳了数据清洗有关的框架和工具。最后,对数据清洗相关研究进行了展望。
引用
收藏
页码:63 / 70
页数:8
相关论文
共 14 条
[1]   基于不完备数据聚类的缺失数据填补方法 [J].
武森 ;
冯小东 ;
单志广 .
计算机学报, 2012, 35 (08) :1726-1738
[2]   复杂数据上的实体识别技术研究 [J].
王宏志 ;
樊文飞 .
计算机学报, 2011, 34 (10) :1843-1852
[3]   对基于SNM数据清洗算法的优化 [J].
张建中 ;
方正 ;
熊拥军 ;
袁小一 .
中南大学学报(自然科学版), 2010, 41 (06) :2240-2245
[4]   大数据量的高效重复记录检测方法 [J].
庞雄文 ;
姚占林 ;
李拥军 .
华中科技大学学报(自然科学版), 2010, 38 (02) :8-11
[5]   数据清洗研究综述 [J].
王曰芬 ;
章成志 ;
张蓓蓓 ;
吴婷婷 .
现代图书情报技术, 2007, (12) :50-56
[6]   基于业务规则的错误数据清理方法 [J].
陈伟 ;
陈耿 ;
朱文明 ;
王昊 ;
不详 .
计算机工程与应用 , 2005, (14) :172-174
[7]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[8]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77
[9]  
数据质量工程实践[M]. 电子工业出版社 , (美) 麦吉利夫雷 (McGilvray, 2010
[10]  
Missing values: how many can they be to preserve classification reliability?[J] . Martti Juhola,Jorma Laurikkala.Artificial Intelligence Review . 2013 (3)