一种用于文本聚类的改进k-means算法

被引:33
作者
索红光 [1 ]
王玉伟 [2 ]
机构
[1] 北京理工大学计算机科学技术学院
[2] 中国石油大学计算机与通信工程学院
关键词
文本聚类; k-means; 向量空间模型; 局部迭代;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。
引用
收藏
页码:60 / 64
页数:5
相关论文
共 4 条
[1]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[2]   一种基于自动阈值发现的文本聚类方法 [J].
张猛 ;
王大玲 ;
于戈 .
计算机研究与发展, 2004, (10) :1748-1753
[3]   基于免疫规划的K-means聚类算法 [J].
行小帅 ;
潘进 ;
焦李成 .
计算机学报, 2003, (05) :605-610
[4]   Concept Decompositions for Large Sparse Text Data Using Clustering [J].
Inderjit S. Dhillon ;
Dharmendra S. Modha .
Machine Learning, 2001, 42 :143-175