基于聚类和孤立点检测的数据预处理方法的研究

被引:0
作者
苗润华
机构
[1] 北京交通大学
关键词
聚类; 孤立点检测; 数据预处理; 数据挖掘; 数据清理; 噪声处理;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
随着网络信息化服务的不断发展,企业都积累了前所未有的海量数据,如何从这些海量数据中挖掘出自己需要的信息并应用到自身的发展决策中成为了一个迫切需要研究的问题.面对这样的挑战,数据挖掘技术应运而生.但是,由于数据在采集或者录入过程中的一些错误以及一些其它的原因,导致数据中难免会存在一些问题.这些问题在很大程度上影响着数据挖掘任务的成败.因此,使用数据预处理技术改善数据质量显得非常重要.而聚类和孤立点检测作为数据挖掘领域的两个非常热门的研究方向,也受到人们越来越多的关注.因此,本文从数据预处理的任务出发,分析聚类和孤立点检测方法与数据预处理需求之间的关系,并研究相应的数据预处理方法有重要的理论意义和实用价值. 本文首先对基于聚类和孤立点检测的数据预处理进行了简单的概述.然后介绍了面向数据挖掘的数据预处理系统的整体架构,该系统是根据新的分类方式将数据预处理任务分成六个部分来实现的.紧接着描述了系统的启动,以及该系统的每个功能模块的任务. 其次,本文分析了如何用聚类方法实现预处理系统中的噪声处理功能.并详细介绍了聚类的相关概念、聚类算法的分类及其要求,同时将两个经典的聚类算法κ-均值算法和最远优先算法用于系统中的噪声识别.进而通过对这两个经典算法的分析与研究,用最远优先策略选择κ-均值算法的初始聚类中心,提出了一种改进的用于噪声处理的κ-均值算法.最后实验表明改进的算法在处理低维数据时,聚类效果要优于原来的κ-均值算法,而且聚类效率也有了一定的提高,平均为原来的κ-均值算法的2倍. 最后,本文分析了实例检测中的孤立点检测的实现方法,并对孤立点检测的相关概念以及孤立点检测算法的分类和评价方式进行了详细的介绍.同时在系统中设计并实现了两种孤立点检测算法基于简单的剪枝策略的孤立点检测算法和基于一类支持向量机的孤立点检测算法,并对前者进行了改进.最后通过实验验证了改进后的算法在处理低维数据时不但维持了原算法较高的正确率,而且效率平均提高为原算法的2.3倍.
引用
收藏
页数:78
共 11 条
[1]
Layered Approach Using Conditional Random Fields for Intrusion Detection [J].
Gupta, Kapil Kumar ;
Nath, Baikunth ;
Kotagiri, Ramamohanarao .
IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING, 2010, 7 (01) :35-49
[2]
Duplicate detection algorithms of bibliographic descriptions [J].
Sitas, Anestis ;
Kapidakis, Sarantos .
LIBRARY HI TECH, 2008, 26 (02) :287-301
[3]
Swoosh: a generic approach to entity resolution.[J].Omar Benjelloun;Hector Garcia-Molina;David Menestrina;Qi Su;Steven Euijong Whang;Jennifer Widom.The VLDB Journal.2009, 1
[4]
Collective entity resolution in relational data.[J].Indrajit Bhattacharya;Lise Getoor.ACM Transactions on Knowledge Discovery from Data (TKDD).2007, 1
[5]
Estimating the support of a high-dimensional distribution [J].
Schölkopf, B ;
Platt, JC ;
Shawe-Taylor, J ;
Smola, AJ ;
Williamson, RC .
NEURAL COMPUTATION, 2001, 13 (07) :1443-1471
[6]
Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[7]
Real-world data is dirty: Data cleansing and the merge/purge problem [J].
Hernandez, MA ;
Stolfo, SJ .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (01) :9-37
[8]
Knowledge Acquisition Via Incremental Conceptual Clustering.[J].Douglas H. Fisher.Machine Learning.1987, 2
[9]
面向数据挖掘的数据预处理系统设计与实现 [D]. 
赵飞国 .
北京交通大学,
2011
[10]
An efficient enhanced k-means clustering algorithm.[J].FAHIM A.M;SALEM A.M;TORKEY F.A;RAMADAN M.A;.Journal of Zhejiang University Science A(Science in Engineering).2006, 10