基于密度峰值优化的K-means文本聚类算法

被引:26
作者
田诗宵
丁立新
郑金秋
机构
[1] 武汉大学计算机学院
关键词
文本聚类; 密度峰值; F度量; k均值; 向量化;
D O I
10.16208/j.issn1000-7024.2017.04.032
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统K-means算法中初始质心选定的随机性可能使算法陷入局部最优解,使聚类结果不够准确。改进初始质心的选择算法,为各样本点引入局部密度指标,根据其局部密度分布情况,选取处于密度峰值的点作为初始质心,得到稳定的离收敛质心很近的初始质心,减少算法迭代次数,提高运行效率,降低陷入局部最优的概率,显著提高聚类准确性。实验结果表明,与几种已有算法相比,该算法在文本聚类中有明显优势。
引用
收藏
页码:1019 / 1023
页数:5
相关论文
共 12 条
[1]  
基于遗传算法的K-means聚类方法的研究.[D].吴香庭.山东科技大学.2010, 03
[2]  
k - Means + + under approximation stability.[J].Manu Agarwal;Ragesh Jaiswal;Arindam Pal.Theoretical Computer Science.2015,
[3]   A three-stage unsupervised dimension reduction method for text clustering [J].
Bharti, Kusum Kumari ;
Singh, P. K. .
JOURNAL OF COMPUTATIONAL SCIENCE, 2014, 5 (02) :156-169
[4]   Comparative Analysis of K-Means and Fuzzy C-Means Algorithms [J].
Ghosh, Soumi ;
Dubey, Sanjay Kumar .
INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS, 2013, 4 (04) :35-39
[5]   基于最小生成树的层次K-means聚类算法 [J].
贾瑞玉 ;
李振 .
微电子学与计算机, 2016, 33 (03) :86-88+93
[6]   加速大数据聚类K-means算法的改进 [J].
韩岩 ;
李晓 .
计算机工程与设计, 2015, 36 (05) :1317-1320
[7]   最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[8]   一种有效的K-means聚类中心初始化方法 [J].
熊忠阳 ;
陈若田 ;
张玉芳 .
计算机应用研究, 2011, 28 (11) :4188-4190
[9]   对k-means初始聚类中心的优化 [J].
仝雪姣 ;
孟凡荣 ;
王志晓 .
计算机工程与设计, 2011, 32 (08) :2721-2723+2788
[10]   基于全局性确定聚类中心的文本聚类 [J].
陈建超 ;
胡桂武 ;
杨志华 ;
严桂夺 .
计算机工程与应用 , 2011, (10) :147-150