基于密度峰值的改进K-Means文本聚类算法及其并行化

被引:21
作者
袁逸铭
刘宏志
李海生
机构
[1] 北京工商大学计算机与信息工程学院
基金
北京市自然科学基金;
关键词
文本聚类; 密度峰值; MapReduce; K均值聚类算法;
D O I
10.14188/j.1671-8836.2019.05.006
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对K均值(K-means)聚类算法进行文本聚类时随机选取初始聚类中心点的问题,提出一种基于密度峰值进行初始聚类中心点选取的适用于文本聚类的K-means算法(DPMCSKM),为了更好地适应大规模聚类计算的要求,设计并实现了基于MapReduce的DPMCSKM并行化算法。实验结果表明,DPMCSKM算法可以有效地进行文本聚类,与K-means、基于密度峰值的快速搜索聚类算法选取初始簇中心点的K-means以及多簇球形K-means算法相比在聚类质量上均有一定的提升,在收敛速度上也有较好的表现;DPMCSKM并行化算法在可扩展性上,具有较好的加速比。
引用
收藏
页码:457 / 464
页数:8
相关论文
共 10 条
[1]  
基于密度峰值的一种文本聚类优化算法的研究与实现.[D].兰旭.国防科学技术大学.2016, 04
[2]   K-means算法研究综述 [J].
丛思安 ;
王星星 .
电子技术与软件工程, 2018, (17) :155-156
[3]   基于余弦距离选取初始簇中心的文本聚类研究 [J].
王彬宇 ;
刘文芬 ;
胡学先 ;
魏江宏 .
计算机工程与应用, 2018, 54 (10) :11-18
[4]   拐点估计的改进谱聚类算法 [J].
张嘉琪 ;
张红云 .
小型微型计算机系统, 2017, 38 (05) :1049-1053
[5]   云计算中Hadoop技术研究与应用综述 [J].
夏靖波 ;
韦泽鲲 ;
付凯 ;
陈珍 .
计算机科学, 2016, 43 (11) :6-11+48
[6]   K-Means聚类的多种距离计算方法的文本实验比较 [J].
林滨 .
福建工程学院学报, 2016, 14 (01) :80-85
[7]   一种基于密度峰值发现的文本聚类算法 [J].
刘颖莹 ;
刘培玉 ;
王智昊 ;
李情情 ;
朱振方 .
山东大学学报(理学版), 2016, 51 (01) :65-70
[8]   文本聚类研究综述 [J].
曹晓 .
情报探索, 2016, (01) :131-134
[9]   Concept decompositions for large sparse text data using clustering [J].
Dhillon, IS ;
Modha, DS .
MACHINE LEARNING, 2001, 42 (1-2) :143-175
[10]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11