文档聚类中k-means算法的一种改进算法

被引:29
作者
万小军
杨建武
陈晓鸥
机构
[1] 北京大学计算机研究所文字信息处理技术国家重点实验室
[2] 北京大学计算机研究所文字信息处理技术国家重点实验室 北京
[3] 北京
[4] 北京
关键词
文档聚类; k-means算法; 划分聚类算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感。为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法。实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。
引用
收藏
页码:102 / 103+157 +157
页数:3
相关论文
共 6 条
  • [1] Information Retrieval (Second Edition). Rijsbergen G J V. . 1989
  • [2] Information Retrieval Systems - Theory and Implementation. Kowalski G. . 1997
  • [3] Finding groups in data:an introduction to cluster analysis. Kaufman L,Rousseeuw PJ. . 1990
  • [4] An Analysis of Recent Work on Clustering Algorithms. Fasulo D. . 1999
  • [5] A Comparison of Document Clustering Techniques. Steinbach M,Karypis G,Kumar V. Dept. of Computer and Infor- mation Science Technical Report . 1995
  • [6] Algorithms for Clustering Data. Jain AK,Dubes RC. . 1988