基于密度的局部离群点检测算法分析与研究

被引:0
作者
揭财明
机构
[1] 重庆大学
关键词
离群点检测; 方形对称邻域; 记忆效应; 密度; 局部离群度;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
近年来,随着计算机技术及数据库技术的飞速发展,数据挖掘技术得到了快速发展并广泛地应用于各个领域中。数据挖掘,即从有噪声的、大量的数据中,提取出人们事先未知却又有潜在价值的知识;离群点挖掘作为数据挖掘领域中的一个重要而活跃分支,它用于从数据集中找出明显偏离其他数据对象、或不满足一般对象行为特征的对象。目前,离群数据挖掘广泛地应用于诸多领域,如电信话费欺诈分析、信用卡欺诈检测、网络攻击行为检测及极端天气气象预报等。 离群点挖掘技术最早运用于数据统计分析领域,利用统计分布等相关知识检测离群点,形成了早期的基于统计分布的离群点挖掘技术;而后,诸多专家学者提出了多种经典的离群点检测方法,有基于偏差的检测方法、基于距离的检测方法及基于密度的检测方法等;这些方法在一定程度上,能检测出适用本身算法的异常数据对象,然而均存在一些不足和缺陷,如检测效率低、检测精度不高、参数的设置依赖用户的先验知识及在高维大数据集中适用性差等。本文针对各种离群点检测方法的局限性,提出了改进的基于方形对称邻域和记忆效应的局部离群点检测算法SSMOD;具体而言,本文所作的工作主要包括以下几个方面: ①分析研究离群数据挖掘的背景和意义,探讨国内外研究现状。 ②系统而全面地分析各经典的离群点挖掘方法,重点阐述基于统计分布的、基于深度的、基于偏差的、基于聚类的和基于距离的检测方法;对各种代表性算法的优点和缺点进行分析和比较,介绍离群数据挖掘的研究热点及发展趋势。 ③基于已有的各种经典算法,如LOF、NDOD算法等,提出了改进的基于方形对称邻域和记忆效应的局部离群点检测算法SSMOD,并利用新的度量方式评估对象的离群程度及引入记忆效应思想,大大降低算法复杂度。 ④从理论分析和实验测试的角度分别评估算法SSMOD,并探讨初始参数对检测结果的影响;比较和分析算法在低维和高维空间中的检测效率及检测精度。 ⑤总结本文所作的研究工作,对离群数据挖掘的发展趋势进行预测和展望。 本文通过实验对改进算法SSMOD进行评估,实验中采用合成数据集和KDDCUP1999数据集。实验结果表明:本算法能够很好地检测出各种离群点,在检测效率及检测精度等方面均优于LOF、NDOD等算法。
引用
收藏
页数:55
共 29 条
[1]
基于网格划分的高维大数据集离群点检测算法研究 [D]. 
张天佑 .
中南大学,
2011
[2]
Pacman profiling: a simple procedure to identify stratigraphic outliers in high-density deep-sea microfossil data [J].
Lazarus, David ;
Weinkauf, Manuel ;
Diver, Patrick .
PALEOBIOLOGY, 2012, 38 (01) :144-161
[3]
A fuzzy index for detecting spatiotemporal outliers [J].
Grekousis, George ;
Fotis, Yorgos N. .
GEOINFORMATICA, 2012, 16 (03) :597-619
[4]
Outlier detection in high-density surface electromyographic signals [J].
Marateb, Hamid R. ;
Rojas-Martinez, Monica ;
Mansourian, Marjan ;
Merletti, Roberto ;
Mananas Villanueva, Miguel A. .
MEDICAL & BIOLOGICAL ENGINEERING & COMPUTING, 2012, 50 (01) :79-89
[5]
An integrated approach for local outlier detection using dynamic minimum spanning tree [J].
Peter, S. John ;
Victor, S. P. .
JOURNAL OF DISCRETE MATHEMATICAL SCIENCES & CRYPTOGRAPHY, 2011, 14 (01) :89-106
[6]
On detecting spatial outliers [J].
Chen, Dechang ;
Lu, Chang-Tien ;
Kou, Yufeng ;
Chen, Feng .
GEOINFORMATICA, 2008, 12 (04) :455-475
[7]
SLOM: a new measure for local spatial outliers [J].
Chawla, S ;
Sun, P .
KNOWLEDGE AND INFORMATION SYSTEMS, 2006, 9 (04) :412-429
[8]
Re-designing distance functions and distance-based applications for high dimensional data [J].
Aggarwal, CC .
SIGMOD RECORD, 2001, 30 (01) :13-18
[9]
Distance-based outliers: algorithms and applications [J].
Knorr, EM ;
Ng, RT ;
Tucakov, V .
VLDB JOURNAL, 2000, 8 (3-4) :237-253
[10]
基于方形对称邻域的局部离群点检测方法 [J].
揭财明 ;
刘慧君 ;
朱庆生 .
计算机应用研究, 2012, 29 (02) :472-474