基于K-距离的孤立点和聚类算法研究

被引:0
作者
贾晨科
机构
[1] 郑州大学
关键词
数据挖掘; 聚类算法; 孤立点检测; p的k-距离; k-距离邻居;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
从大型数据集中发现有趣的,有用的且预先未知的知识的过程被称为数据挖掘。数据挖掘又称数据库中的知识发现,是数据库研究最活跃的领域之一。通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息。这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要组成部分,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图象处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析了基于密度的聚类算法和基于密度的孤立点算法的基础上,提出了基于局部孤立系数的孤立点检测和基于局部孤立系数的聚类算法;基于K-距离因子和增强的K-距离因子的孤立点检测算法。 本文使用Visual C++6.0实现了基于局部孤立系数的聚类算法、基于局部孤立系数的孤立点算法、基于K-距离因子的孤立点算法、增强的K-距离因子的孤立点算法、LOF算法、RDBKNN算法。在综合数据集上和真实数据集上做了大量的对比实验来验证孤立点算法的正确性,在综合数据集上验证孤立点算法的效率;在综合数据集上、真实数据集上和多密度数据集上验证基于局部孤立系数的聚类算法的正确性,在综合数据集上验证聚类算法的效率。 实验结果表明,基于局部孤立系数的聚类、基于局部孤立系数的孤立点、基于K-距离因子的孤立点、增强的K-距离因子的孤立点算法能够准确、有效的发现聚类和孤立点。聚类和孤立点检测算法在执行效率、聚类及孤立点检测效果等方面有一定的优越性。 总之,基于局部孤立系数的聚类算法不仅适合于均匀密度的数据集,而且对多密度数据集上也适合。该算法能有效的识别出各种形状的聚类,而且也能有效的识别出孤立点或噪声,在和RDBKNN算法对比中显示出了一定的优越性。最后,实验结果表明,无论是聚类算法还是孤立点检测算法都比原来的算法效率高。
引用
收藏
页数:71
共 10 条
[1]
一种增强的局部异常挖掘方法 [J].
蒋盛益 ;
李庆华 ;
王卉 ;
孟中楼 ;
不详 .
计算机研究与发展 , 2005, (02) :210-216
[2]
一种有效的基于网格和密度的聚类分析算法 [J].
胡泱 ;
陈刚 .
计算机应用, 2003, (12) :64-67
[3]
Kmeans聚类分析算法中一个新的确定聚类个数有效性的指标 [J].
李双虎 ;
王铁洪 .
河北省科学院学报, 2003, (04) :199-202
[4]
聚类方法在图像识别中的应用 [J].
沈建平 ;
沈介文 ;
朱宏明 ;
夏炯贤 .
计算机应用, 2003, (10) :51-52
[5]
基于网格上近似的大规模数据集离群点检测算法GROUT [J].
李存华 ;
孙志挥 ;
陈耿 .
计算机应用研究, 2003, (09) :134-136
[6]
一种改进的K-means算法 [J].
张玉芳 ;
毛嘉莉 ;
熊忠阳 .
计算机应用, 2003, (08) :31-33+60
[7]
一种基于中心对称性的聚类算法 [J].
许剑峰 ;
林嘉宜 ;
黎绍发 .
计算机工程与设计, 2003, (05) :94-96
[8]
数据挖掘的聚类方法 [J].
行小帅 ;
焦李成 .
电路与系统学报, 2003, (01) :59-67
[9]
On clustering validation techniques [J].
Halkidi, M ;
Batistakis, Y ;
Vazirgiannis, M .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2001, 17 (2-3) :107-145
[10]
Distance-based outliers: algorithms and applications [J].
Knorr, EM ;
Ng, RT ;
Tucakov, V .
VLDB JOURNAL, 2000, 8 (3-4) :237-253