文档聚类中k-means算法的一种改进算法

被引：29

作者：

万小军

杨建武

陈晓鸥

机构：

[1] 北京大学计算机研究所文字信息处理技术国家重点实验室

[2] 北京大学计算机研究所文字信息处理技术国家重点实验室北京

[3] 北京

[4] 北京

来源：

关键词：

文档聚类; k-means算法; 划分聚类算法;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

介绍了文档聚类中基于划分的k-means算法，k-means算法适合于海量文档集的处理，但它对孤立点很敏感。为此，文章提出将聚类均值点与聚类种子相分离的思想，并具体给出了基于该思想的对k-means算法的改进算法。实验表明，该改进算法比原k-means算法具有更高的准确性和稳定性。

引用

页码：102 / 103+157 +157

页数：3

共 6 条

[1] Information Retrieval (Second Edition). Rijsbergen G J V. . 1989
[2] Information Retrieval Systems - Theory and Implementation. Kowalski G. . 1997
[3] Finding groups in data:an introduction to cluster analysis. Kaufman L,Rousseeuw PJ. . 1990
[4] An Analysis of Recent Work on Clustering Algorithms. Fasulo D. . 1999
[5] A Comparison of Document Clustering Techniques. Steinbach M,Karypis G,Kumar V. Dept. of Computer and Infor- mation Science Technical Report . 1995
[6] Algorithms for Clustering Data. Jain AK,Dubes RC. . 1988