重复和不完整数据的清理方法研究及应用

被引:0
作者
鲁均云
机构
[1] 江苏大学
关键词
数据清理; 数据质量; 相似重复记录; 内码序值; 不完整数据; 清理系统; 可扩展性;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
随着信息化产业的不断推进,企业积累的数据越来越多,激增的数据背后隐藏着重要信息,对企业作出正确、科学的决策,提高竞争力是至关重要的。为满足决策分析的需要,数据仓库应运而生。在数据仓库构建过程中,由于各种原因,数据仓库中含有重复的、不完整的以及异常的数据,即数据存在质量问题。高质量的数据是决策支持的前提条件,因此,为提高数据质量,对数据进行清理是非常必要的。 本文先论述了数据预处理的相关知识,分析了数据清理的必要性以及国内外研究现状,并介绍了数据质量和数据清理的相关理论,阐述了数据清理的定义、原理与基本流程及相关清理技术。重点对相似重复记录检测及不完整数据清理方法做了深入研究,对相关算法进行了改进,并在此基础上设计了一个数据清理原型系统。本文主要工作如下: (1)在重复记录清理中,提出一种基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;再根据等级法计算各字段的权值,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法。实验表明该方法具有较好的检测精度和时间效率。 (2)在不完整数据清理中,提出一种基于小波聚类加权1-NN的不完整数据清理方法。首先将数据集分成完整记录集和不完整记录集,然后对完整记录集利用小波聚类算法进行聚类,形成不同的子类,再判断不完整记录集中记录的可用性,利用加权1-NN方法找到不完整记录的最近邻子类,最后填充不完整记录缺失属性值。实验表明该方法具有较好填充效果。 (3)在分析和研究多种清理框架基础上,设计一种数据清理原型系统。该系统具有开放的算法库、规则库与评估库,包含了丰富的清理算法和大量的清理规则,提供了多种质量评估指标。从分析体系结构各个模块的主要功能及其应用,体现了该系统具有良好的可扩展性、灵活性和交互性。
引用
收藏
页数:81
共 33 条
[1]
Maximum consistency of incomplete data via non-invasive imputation [J].
Gediga, G ;
Düntsch, I .
ARTIFICIAL INTELLIGENCE REVIEW, 2003, 19 (01) :93-107
[2]
An analysis of four missing data treatment methods for supervised learning [J].
Batista, GEAPA ;
Monard, MC .
APPLIED ARTIFICIAL INTELLIGENCE, 2003, 17 (5-6) :519-533
[3]
Automating the approximate record-matching process.[J].Vassilios S Verykios;Ahmed K Elmagarmid;Elias N Houstis.Information Sciences.2000, 1
[4]
WaveCluster:: a wavelet-based clustering approach for spatial data in very large databases [J].
Sheikholeslami, G ;
Chatterjee, S ;
Zhang, AD .
VLDB JOURNAL, 2000, 8 (3-4) :289-304
[5]
Architecture and quality in data warehouses: An extended repository approach [J].
Jarke, M ;
Jeusfeld, MA ;
Quix, C ;
Vassiliadis, P .
INFORMATION SYSTEMS, 1999, 24 (03) :229-253
[6]
Real-world data is dirty: Data cleansing and the merge/purge problem [J].
Hernandez, MA ;
Stolfo, SJ .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (01) :9-37
[7]
Data quality in context [J].
Strong, DM ;
Lee, YW ;
Wang, RY .
COMMUNICATIONS OF THE ACM, 1997, 40 (05) :103-110
[8]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[9]
数据清理关键技术及其软件平台的研究与应用 [D]. 
陈伟 .
南京航空航天大学,
2005
[10]
数据质量研究综述 [J].
韩京宇 ;
徐立臻 ;
董逸生 .
计算机科学, 2008, (02) :1-5+12