一种确定最佳聚类数的新算法

被引:11
作者
谢娟英 [1 ,2 ]
马箐 [1 ]
谢维信 [2 ,3 ]
机构
[1] 陕西师范大学计算机科学学院
[2] 西安电子科技大学电子工程学院
[3] 深圳大学信息工程学院
关键词
信息粒度; K-均值; 全局K-均值; 模糊相似度; 聚类指标BWP;
D O I
10.15983/j.cnki.jsnu.2012.01.003
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对K-均值聚类算法需要事先确定聚类数K的问题,将粒度计算引入样本相似度函数,定义了新的样本相似度,用模糊等价聚类确定数据集可能的最大类簇数Kmax.以Kmax为搜索上界,利用改进全局K-均值聚类算法,以BWP(Between-Within Proportion)为聚类有效性度量指标,提出确定最佳聚类数的一种新方法.通过UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明该算法不仅能有效确定数据集的最佳聚类数,而且适用于大规模数据集,但是会受到噪音点影响.
引用
收藏
页码:13 / 18
页数:6
相关论文
共 9 条
[1]   Research and progress of cluster algorithms based on granular computing [J].
Shifei D. ;
Li X. ;
Hong Z. ;
Liwen Z. .
International Journal of Digital Content Technology and its Applications, 2010, 4 (05) :96-104
[2]   基于近邻传播算法的最佳聚类数确定方法比较研究 [J].
周世兵 ;
徐振源 ;
唐旭清 .
计算机科学, 2011, 38 (02) :225-228
[3]   K-means算法最佳聚类数确定方法 [J].
周世兵 ;
徐振源 ;
唐旭清 .
计算机应用, 2010, 30 (08) :1995-1998
[4]   新的K-均值算法最佳聚类数确定方法 [J].
周世兵 ;
徐振源 ;
唐旭清 .
计算机工程与应用, 2010, 46 (16) :27-31
[5]   一种改进的全局K-均值聚类算法 [J].
谢娟英 ;
蒋帅 ;
王春霞 ;
张琰 ;
谢维信 .
陕西师范大学学报(自然科学版), 2010, (02) :18-22
[6]   K-MEANS算法中的K值优化问题研究 [J].
杨善林 ;
李永森 ;
胡笑旋 ;
潘若愚 .
系统工程理论与实践, 2006, (02) :97-101
[7]   基于信息粒度与Rough集的聚类方法研究 [J].
安秋生 ;
沈钧毅 ;
王国胤 .
模式识别与人工智能, 2003, 16 (04) :412-417
[8]   聚类/分类中的粒度原理 [J].
卜东波 ;
白硕 ;
李国杰 .
计算机学报, 2002, (08) :810-816
[9]  
模糊聚类分析及其应用.[M].高新波著;.西安电子科技大学出版社.2004,