离群点检测作为数据挖掘领域研究的重要组成部分,致力于发掘庞大信息集合中所占比例极小的一部分特殊数据。这小部分特殊数据由于具有明显的不同于其他数据的离群特征,往往蕴含着真实却又出乎意料的现实意义或知识价值。因此,离群点检测被广泛的应用于入侵检测、信用欺诈、故障诊断等领域。为了更好的检测到信息集合中的离群信息,研究人员设计开发了许多不同的离群点检测算法,其中基于距离的离群点检测算法可以灵活的制定距离函数、有效的获得离群点信息,具有重大的理论意义与实用价值。然而目前的研究在实际应用过程中还存在着一些不足,如初始参数的选取需要通过经验获取,算法在高维、大数据集上的运行效率等。
本文针对现有的基于距离的离群点检测算法的不足,围绕无监督初始参数的获取与提高算法的运行效率等关键问题进行了研究与实验,提出了基于粗粒度单元的离群点检测算法,通过使用粗粒度单元对数据集进行剪枝,从而提升基于距离的离群点检测的效率;同时结合KNN算法思想给出了一种距离参数的参考值的获得算法,从而简化了获得有效利群信息的收敛过程。主要研究成果包括:
①研究了数据挖掘的现状与过程、离群点检测的意义,全面分析了现有的离群点检测算法,对比了常用的离群点检测算法的优缺点、适用范围。
②介绍了数据预处理技术,重点对数据清理、数据集成与变换、数据规约的方法进行了分析;同时对降维技术进行了概述,从特征选择与特征变换两个方面介绍了现有的理论和方法。
③在经典的基于单元的离群点检测算法基础上,提出了一种改进的基于粗粒度单元的离群点挖掘算法,通过扩大单元粒度来减少算法的时间与空间复杂度,并通过实验验证了其优于原算法。
④结合KNN算法思想,提出了一种应用于基于距离的离群点检测的距离参数参考值的选取算法,通过计算获得较为合理的距离参数初始值,从而降低离群点检测过程中的人工监督程度以及知识发现的收敛过程。
论文的实验使用了UCI的Abalone与EL Nino两个数据集,分别比较了不同的距离、比例、维度、数据规模等参数对本文提出的基于粗粒度单元的离群点检测算法的性能和有效性的影响,同时比较了其与经典单元算法之间的性能差异。结果表明本文提出的基于粗粒度单元的离群点检测算法能够有效的检测出数据集中的离群点,较经典的基于单元离群点检测算法有着更好的性能。