基于优化初始聚类中心和轮廓系数的K-means聚类算法

被引:131
作者
孙林 [1 ,2 ]
刘梦含 [1 ]
徐久成 [1 ,2 ]
机构
[1] 河南师范大学计算机与信息工程学院
[2] 智慧商务与物联网技术河南省工程实验室
关键词
K-means算法; 聚类中心; K值; 中位数; 轮廓系数;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
传统K-means聚类算法初始聚类中心以及聚类数目K是随机确定的,聚类结果受其影响较大,这样容易造成聚类结果不稳定且准确率较低。针对上述问题,本文提出一种基于优化初始聚类中心和轮廓系数的K-means聚类算法。首先,为了选出准确的初始聚类中心,引入平均样本距离和误差平方和,构造初始聚类中心的选取方法,使得选取的初始聚类中心是样本相对集中的点,有效避免选择离群点;然后,为了选择出最佳聚类数目K,基于最近簇中心进行簇的合并,基于中位数构造轮廓系数,设计基于中位数的平均轮廓系数评价指标,判断簇合并之后的最佳K;最后,通过以上两种方法选择合理的初始聚类中心和K,进而设计了基于优化初始聚类中心和轮廓系数的K-means聚类算法。在选取的合成数据集和UCI数据集上进行测试与分析。实验结果表明,本文所提算法能够选取最优的K和唯一的初始中心点,获得了更好的聚类结果,同时也提升了聚类算法的稳定性。
引用
收藏
页码:47 / 65
页数:19
相关论文
共 29 条
[1]
Density peaks clustering based on k-nearest neighbors and self-recommendation [J].
Sun, Lin ;
Qin, Xiaoying ;
Ding, Weiping ;
Xu, Jiucheng ;
Zhang, Shiguang .
INTERNATIONAL JOURNAL OF MACHINE LEARNING AND CYBERNETICS, 2021, 12 (07) :1913-1938
[2]
Improved K-means algorithm based on density Canopy.[J].Geng Zhang;Chengchang Zhang;Huayu Zhang.Knowledge-Based Systems.2018,
[3]
Multi-level hybrid support vector machine and extreme learning machine based on modified K-means for intrusion detection system.[J].Wathiq Laftah Al-Yaseen;Zulaiha Ali Othman;Mohd Zakree Ahmad Nazri.Expert Systems With Applications.2017,
[4]
Machine learning. Clustering by fast search and find of density peaks..[J].Rodriguez Alex;Laio Alessandro.Science (New York; N.Y.).2014, 6191
[5]
Clustering by passing messages between data points [J].
Frey, Brendan J. ;
Dueck, Delbert .
SCIENCE, 2007, 315 (5814) :972-976
[6]
OPTICS.[J].Mihael Ankerst;Markus M. Breunig;Hans-Peter Kriegel;J?rg Sander.ACM SIGMOD Record.1999, 2
[7]
Some methods for classification and analysis of multivariate observations.[J].J. MacQueen.Berkeley Symposium on Mathematical Statistics and Probability.1967,
[8]
基于变分模态分解和密度峰值快速搜索的电力负荷曲线可控聚类模型 [J].
谷紫文 ;
李鹏 ;
郎恂 ;
喻怡轩 ;
沈鑫 ;
曹敏 .
电力系统保护与控制, 2021, 49 (08) :118-127
[9]
基于区间二型FCM和合理粒度原则的信息粒生成方法及应用 [J].
赵芳 ;
郭红月 ;
王利东 .
模糊系统与数学, 2021, 35 (01) :101-110
[10]
基于聚类分析和混合自适应进化算法的短期风电功率预测 [J].
李福东 ;
曾旭华 ;
魏梅芳 ;
丁敏 .
电力系统保护与控制, 2020, 48 (22) :151-158