一种改进的全局K-均值聚类算法

被引:50
作者
谢娟英 [1 ,2 ]
蒋帅 [1 ]
王春霞 [1 ]
张琰 [1 ]
谢维信 [2 ]
机构
[1] 陕西师范大学计算机科学学院
[2] 西安电子科技大学电子工程学院
关键词
K-均值; 全局K-均值; 快速全局K-均值; K中心点法;
D O I
10.15983/j.cnki.jsnu.2010.02.024
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
将快速K中心点聚类算法确定初始中心点的思想应用于全局K-均值聚类算法,对其选取下一个簇的最佳初始中心的方法进行改进,提出选取下一个簇的最佳初始中心的一种新方法.该新方法选择一个周围样本分布相对密集,且距离现有簇的中心比较远的样本为下一个簇的最佳初始中心,得到一种改进的全局K-均值聚类算法.改进后的算法不仅可以避免将噪音点作为下一个簇的最佳初始中心点,而且在不影响聚类效果的基础上缩短了聚类时间.通过UCI机器学习数据库数据以及随机生成的人工模拟数据实验测试,证明改进的全局K-均值聚类算法与全局K-均值聚类算法及快速全局K-均值聚类算法相比在聚类时间上更优越.
引用
收藏
页码:18 / 22
页数:5
相关论文
共 3 条
[1]  
数据挖掘[M]. - 中国科学技术大学出版社 , 朱明编著, 2002
[2]   Genetic algorithm-based clustering technique [J].
Maulik, U ;
Bandyopadhyay, S .
PATTERN RECOGNITION, 2000, 33 (09) :1455-1465
[3]   Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304