K近邻优化的密度峰值快速搜索聚类算法

被引:239
作者
谢娟英 [1 ]
高红超 [1 ]
谢维信 [2 ]
机构
[1] 陕西师范大学计算机科学学院
[2] 深圳大学信息工程学院ATR国家重点实验室
关键词
K近邻; 局部密度; 密度峰值; 类簇中心; 聚类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
针对2014年6月发表在Science的密度峰值点快速搜索聚类算法的样本局部密度定义和样本分配策略的缺陷,提出一种基于K近邻的快速密度峰值搜索并高效分配样本的聚类算法.算法利用样本点的K近邻信息定义样本局部密度,搜索和发现样本的密度峰值,以峰值点样本作为初始类簇中心;提出两种基于K近邻的样本分配策略,依次分配样本到相应类簇中心,得到数据集样本的分布模式.理论分析和在经典人工数据集、UCI数据集及Olivetti人脸数据集的对比实验表明:提出的基于K近邻的密度峰值搜索聚类算法能快速发现任意形状、任意维度和任意规模数据集的类簇中心,并合理分配样本到相应类簇,揭示数据集样本的分布模式,对噪声数据具有非常好的鲁棒性,聚类结果优于2014年6月发表在Science的密度峰值点快速搜索聚类算法,以及经典聚类算法AP,DBSCAN和K-means.本文算法是一种非常有效的聚类算法,可用于发现任意数据集的隐藏模式与规律.
引用
收藏
页码:258 / 280
页数:23
相关论文
共 10 条
[1]
一种基于同步动力学模型的层次聚类方法 [J].
黄健斌 ;
康剑梅 ;
齐俊杰 ;
孙鹤立 .
中国科学:信息科学, 2013, 43 (05) :599-610
[2]
基于近邻传播算法的半监督聚类 [J].
肖宇 ;
于剑 .
软件学报, 2008, (11) :2803-2813
[3]
An Efficient Global K-means Clustering Algorithm [J].
Xie, Juanying ;
Jiang, Shuai ;
Xie, Weixin ;
Gao, Xinbo .
JOURNAL OF COMPUTERS, 2011, 6 (02) :271-279
[4]
Data clustering: 50 years beyond K-means.[J].Anil K. Jain.Pattern Recognition Letters.2009, 8
[5]
Robust path-based spectral clustering.[J].Hong Chang;Dit-Yan Yeung.Pattern Recognition.2007, 1
[6]
The BYY annealing learning algorithm for Gaussian mixture with automated model selection [J].
Ma, Jinwen ;
Liu, Jianfeng .
PATTERN RECOGNITION, 2007, 40 (07) :2029-2037
[7]
Clustering aggregation.[J].Aristides Gionis;Heikki Mannila;Panayiotis Tsaparas.ACM Transactions on Knowledge Discovery from Data (TKDD).2007, 1
[8]
Iterative shrinking method for clustering problems.[J]..Pattern Recognition.2005, 5
[9]
The global k -means clustering algorithm.[J].Aristidis Likas;Nikos Vlassis;Jakob J. Verbeek.Pattern Recognition.2002, 2
[10]
LIII. On lines and planes of closest fit to systems of points in space.[J].Karl Pearson.Philosophical Magazine Series 6.1901, 11