数据清洗及其一般性系统框架

被引:83
作者
曹建军 [1 ]
刁兴春 [1 ]
陈爽 [1 ,2 ]
邵衍振 [3 ]
机构
[1] 总参第研究所
[2] 解放军理工大学指挥自动化学院
[3] 中国人民解放军部队
基金
中国博士后科学基金;
关键词
数据质量; 数据清洗; 相似重复记录; 不完整记录; 框架;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
数据清洗是提高数据质量的重要手段之一。从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架。数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故障诊断与维修。对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念。提出了数据清洗的一般性系统框架,其由准备、检测、定位、修正、验证5部分组成,允许在多处停止以完成不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松耦合的框架。
引用
收藏
页码:207 / 211
页数:5
相关论文
共 18 条
[1]
Domain-independent data cleaning via analysis of entity-relationship graph [J].
Kalashnikov, Dmitri V. ;
Mehrotra, Sharad .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2006, 31 (02) :716-767
[2]
A product perspective on total data quality management [J].
Wang, RY .
COMMUNICATIONS OF THE ACM, 1998, 41 (02) :58-65
[3]
Real-world data is dirty: Data cleansing and the merge/purge problem [J].
Hernandez, MA ;
Stolfo, SJ .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (01) :9-37
[4]
一种软件故障诊断过程框架 [J].
单锦辉 ;
徐克俊 ;
王戟 .
计算机学报, 2011, 34 (02) :371-382
[5]
基于位运算的不完整记录分类检测方法 [J].
曹建军 ;
刁兴春 ;
吴建明 ;
袁震 ;
彭琮 .
系统工程与电子技术, 2010, 32 (11) :2489-2492
[6]
基于蚁群特征选择的相似重复记录分类检测 [J].
曹建军 ;
刁兴春 ;
杜鹢 ;
王芳潇 ;
张潇毅 .
兵工学报, 2010, 31 (09) :1222-1227
[7]
领域无关数据清洗研究综述 [J].
曹建军 ;
刁兴春 ;
汪挺 ;
王芳潇 .
计算机科学, 2010, 37 (05) :26-29
[8]
数据质量研究综述 [J].
韩京宇 ;
徐立臻 ;
董逸生 .
计算机科学, 2008, (02) :1-5+12
[9]
数据清洗研究综述 [J].
王曰芬 ;
章成志 ;
张蓓蓓 ;
吴婷婷 .
现代图书情报技术, 2007, (12) :50-56
[10]
数据ETL研究与展望.[J].管丽娟;.电脑知识与技术(学术交流).2007, 06