基于余弦距离选取初始簇中心的文本聚类研究

被引:23
作者
王彬宇 [1 ]
刘文芬 [2 ]
胡学先 [1 ]
魏江宏 [1 ]
机构
[1] 数学工程与先进计算国家重点实验室
[2] 桂林电子科技大学广西密码学与信息安全重点实验室
关键词
文本聚类; K-means算法; 余弦相似度; 余弦距离; 初始点选取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。
引用
收藏
页码:11 / 18
页数:8
相关论文
共 14 条
[1]   基于K-means的数据流离群点检测算法 [J].
韩崇 ;
袁颖珊 ;
梅焘 ;
耿慧玲 .
计算机工程与应用, 2017, 53 (03) :58-63
[2]   基于流量行为特征的异常流量检测 [J].
胡洋瑞 ;
陈兴蜀 ;
王俊峰 ;
叶晓鸣 .
信息网络安全, 2016, (11) :45-51
[3]   自适应K值的粒子群聚类算法 [J].
白树仁 ;
陈龙 .
计算机工程与应用 , 2017, (16) :116-120
[4]   最小方差优化初始聚类中心的K-means算法 [J].
谢娟英 ;
王艳娥 .
计算机工程, 2014, 40 (08) :205-211+223
[5]   最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[6]   特征加权距离与软子空间学习相结合的文本聚类新方法 [J].
王骏 ;
王士同 ;
邓赵红 .
计算机学报, 2012, 35 (08) :1655-1665
[7]   使用谱聚类算法解决文本聚类集成问题 [J].
徐森 ;
卢志茂 ;
顾国昌 .
通信学报, 2010, 31 (06) :58-66
[8]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[9]  
Combining K-Means and K-Harmonic with Fish School Search Algorithm for data clustering task on graphics processing units[J] . Adriane B.S. Serapi?o,Guilherme S. Corrêa,Felipe B. Gon?alves,Veronica O. Carvalho.Applied Soft Computing . 2015
[10]  
A novel approach for initializing the spherical K -means clustering algorithm[J] . Rehab Duwairi,Mohammed Abu-Rahmeh.Simulation Modelling Practice and Theory . 2015