基于样本空间分布密度的初始聚类中心优化K-均值算法

被引:55
作者
谢娟英 [1 ,2 ]
郭文娟 [1 ]
谢维信 [2 ,3 ]
高新波 [2 ]
机构
[1] 陕西师范大学计算机科学学院
[2] 西安电子科技大学电子工程学院
[3] 深圳大学信息工程学院ATR国家重点实验室
基金
中央高校基本科研业务费专项资金资助;
关键词
聚类; K-均值聚类; 初始中心; 邻域; 样本分布密度;
D O I
暂无
中图分类号
TP311.13 []; TP301.6 [算法理论];
学科分类号
1201 ; 081202 ;
摘要
针对传统K-均值聚类算法对初始聚类中心敏感、现有初始聚类中心优化算法缺乏客观性,提出一种基于样本空间分布密度的初始聚类中心优化K-均值算法。该算法利用数据集样本的空间分布信息定义数据对象的密度,并根据整个数据集的空间信息定义了数据对象的邻域;在此基础上选择位于数据集样本密集区且相距较远的数据对象作为初始聚类中心,实现K-均值聚类。UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集的实验测试证明,本算法不仅具有很好的聚类效果,而且运行时间短,对噪声数据有很强的抗干扰性能。基于样本空间分布密度的初始聚类中心优化K-均值算法优于传统K-均值聚类算法和已有的相关K-均值初始中心优化算法。
引用
收藏
页码:888 / 892
页数:5
相关论文
共 11 条
[1]   基于初始聚类中心优化的K-均值算法 [J].
王赛芳 ;
戴芳 ;
王万斌 ;
张晓宇 .
计算机工程与科学, 2010, 32 (10) :105-107+116
[2]   一种改进的k-means初始聚类中心选取算法 [J].
韩凌波 ;
王强 ;
蒋正锋 ;
郝志强 .
计算机工程与应用, 2010, 46 (17) :150-152
[3]   一种优化初始中心点的K-means算法 [J].
汪中 ;
刘贵全 ;
陈恩红 .
模式识别与人工智能, 2009, 22 (02) :299-304
[4]   聚类有效性评价综述 [J].
杨燕 ;
靳蕃 ;
KAMEL Mohamed .
计算机应用研究, 2008, (06) :1630-1632+1638
[5]   K-means算法的初始聚类中心的优化 [J].
赖玉霞 ;
刘建平 .
计算机工程与应用, 2008, (10) :147-149
[6]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[7]   初始化K-means的谱方法 [J].
钱线 ;
黄萱菁 ;
吴立德 .
自动化学报, 2007, (04) :342-346
[8]   初始聚类中心优化的k-means算法 [J].
袁方 ;
周志勇 ;
宋鑫 .
计算机工程, 2007, (03) :65-66
[9]   聚类质量的评价方法 [J].
张惟皎 ;
刘春煌 ;
李芳玉 .
计算机工程, 2005, (20) :10-12
[10]   模糊聚类方法中的最佳聚类数的搜索范围 [J].
于剑 ;
程乾生 .
中国科学E辑:技术科学, 2002, (02) :274-280