优化初始聚类中心及确定K值的K-means算法

被引:27
作者
蒋丽
薛善良
机构
[1] 南京航空航天大学计算机科学与技术学院
关键词
K-means聚类; 聚类数; 聚类中心; 密度; 孤立点;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
K-means聚类算法中,我们需要输入两个参数,一个是聚类数K,另一个是初始聚类中心,初始聚类中心的选择对聚类结果有较大的影响,传统的K-means聚类算法随机挑选K个聚类中心,而随机挑选的聚类中心难免会取到孤立点,这将对聚类结果产生很大的影响。K值是用户输入,K值选取的不好也将影响聚类效果。论文提出了一种改进的K-means聚类算法,先根据类簇指标确定需要聚类的数K,之后采用基于密度的思想,首先将聚类样本分为核心点、边界点和孤立点,之后排除孤立点和边界点并取核心点的中心点作为K个聚类中心后再进行K-means聚类,实验表明改进后的算法比原始的K-means聚类算法准确性更高。
引用
收藏
页码:21 / 24+113 +113
页数:5
相关论文
共 6 条
[1]   K-means聚类算法初始中心选择研究 [J].
杨金花 ;
刘显为 .
河南科学, 2016, 34 (03) :348-351
[2]   基于密度的K-means初始聚类中心选取算法 [J].
韩凌波 .
电子科技 , 2015, (07) :105-107
[3]  
Data clustering: 50 years beyond K-means.[J].Anil K. Jain.Pattern Recognition Letters.2009, 8
[4]  
Looking for natural patterns in data.[J].M Daszykowski;B Walczak;D.L Massart.Chemometrics and Intelligent Laboratory Systems.2001, 2
[5]  
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[6]  
K-Means算法研究及在文本聚类中的应用.[D].陈宝楼.安徽大学.2013, 11