基于向量语义相似度的改进K-Means算法

被引:2
作者
李法运
农罗锋
机构
[1] 福州大学公共管理学院
关键词
K-Means; 语义相似度; 向量空间模型; 聚类;
D O I
10.13833/j.cnki.is.2013.02.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统的K-Means算法的不足,以及其在文本聚类中存在的局限性,提出了一种基于网页向量语义相似度的改进K-Means算法。新算法通过向量语义相似度的计算自动确定初始聚类中心,在聚类过程中,达到语义相似度阈值的网页才使用K-Means算法进行聚类。通过实验证明,新算法很好地克服了传统K-Means算法随机选取聚类中心以及无法处理语义信息的问题,提高了聚类的质量。
引用
收藏
页码:34 / 37+44 +44
页数:5
相关论文
共 7 条
[1]   文本挖掘与中文文本挖掘模型研究 [J].
谌志群 ;
张国煊 .
情报科学, 2007, (07) :1046-1051
[2]   K-means聚类和支持向量机结合的文本分类研究 [J].
贾燕花 ;
徐蔚鸿 .
计算机工程与应用 , 2010, (22) :172-174
[3]  
Fast and effective text mining using linear-time document clustering. Bjornar Larsen,Chinatsu Aone. Proceeding of the fifth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining . 1999
[4]   基于语义距离的高效文本聚类算法 [J].
冯少荣 ;
肖文俊 .
华南理工大学学报(自然科学版), 2008, (05) :30-37
[5]   优化初始值的K均值中文文本聚类 [J].
焦慧 ;
刘迁 ;
王玉英 ;
贾惠波 .
微计算机信息, 2009, 25 (21) :142-144
[6]   优化初始值的K均值中文文本聚类 [J].
焦慧 ;
刘迁 ;
王玉英 ;
贾惠波 .
微计算机信息, 2009, 25 (21) :142-144
[7]  
Refining Initial Points for K-Means Clustering. Bradley P S,Fayyad U M. Proceeding of the 15th International Conference on Machine Learning . 1998