基于孤立系数的孤立点检测研究

被引:0
作者
刘世杰
机构
[1] 中南大学
关键词
数据挖掘; 孤立点检测; 剪枝策略; 孤立系数;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
近几年孤立点检测研究已经成为数据挖掘的热点。孤立点检测的作用是扩展人们的感官功能,来发现那些不能被人们容易发现的知识,识别那些隐藏的重要模式。而这些知识和模式可能对人们有更大的价值,因此对于孤立点检测的研究有着重要的意义。 首先根据对象属性值的描述方式,把对象的属性分为数值型属性和非数值型属性,并针对非数值型属性提出了数值化的处理方法。为了减小传统的计算对象间距离的复杂度,在考察对象间距离时本文提出了一种新的相似距离计算方式。根据对对象相似距离的分析得到对象的相似连通性的性质,并把此性质做为缩小可疑孤立点候选集的剪枝策略。 根据聚类结果的情况,当聚类结果理想时采用基于相似距离的孤立点检测算法。该算法利用基于聚类算法得到粗糙孤立点集合,把数据集分为可疑孤立点集合和聚类集合,提高了检测结果的准确性。同时引入了聚类的平均属性值对象概念,在计算对象与聚类间距离时,用聚类平均属性值对象来代替聚类,从而大大简化了计算复杂度。而当聚类结果不好时,则采用基于参考距离的孤立点检测算法。该算法应用基于统计算法中的切比雪夫不等式理论对数据进行预处理,得到可疑孤立点集合,根据给定的参考点计算可疑孤立点的参考距离,并以此作为判断是否为孤立点的标准。 最后对基于相似距离算法和基于参考距离算法进行了仿真实验。实验结果证明两个算法具有有效性和较高的准确性。
引用
收藏
页数:64
共 21 条
[1]
基于数据立方体和树结构的关联规则算法研究及其应用 [D]. 
丁云磊 .
江苏大学,
2009
[2]
基于密度的孤立点检测技术研究 [D]. 
李宁 .
华中科技大学,
2007
[3]
基于密度的局部离群点检测算法 [J].
张卫旭 ;
尉宇 .
计算机与数字工程, 2010, 38 (10) :11-14
[4]
分类属性高维数据基于集合差异度的聚类算法 [J].
武森 ;
魏桂英 ;
白尘 ;
张桂琼 .
北京科技大学学报, 2010, 32 (08) :1085-1089
[5]
面向高维数据的低冗余top-k异常点发现方法 [J].
陈冠华 ;
马秀莉 ;
杨冬青 ;
唐世渭 ;
帅猛 ;
谢昆青 .
计算机研究与发展, 2010, 47 (05) :788-795
[6]
基于回归的多层数据立方体中的异常发现算法 [J].
胡孔法 ;
丁有伟 ;
陈崚 ;
宋爱波 .
计算机集成制造系统, 2009, 15 (12) :2481-2486
[7]
基于聚类算法与序列异常技术的入侵检测新方法 [J].
刘绍海 ;
刘青昆 ;
安娜 ;
顾跃举 .
计算机安全, 2008, (08) :1-4
[8]
基于数据挖掘和变长序列模式匹配的程序行为异常检测 [J].
田新广 ;
李文法 ;
段洣毅 ;
孙春来 ;
邱志明 .
信号处理, 2008, (04) :551-555
[9]
DNA序列数据挖掘技术 [J].
朱扬勇 ;
熊赟 .
软件学报, 2007, (11) :2766-2781
[10]
基于单元区域的高维数据聚类算法 [J].
谢坤武 ;
毕晓玲 ;
叶斌 .
计算机研究与发展, 2007, (09) :1618-1623