基于参考区域的k-means文本聚类算法

被引：8

作者：

索红光

王玉伟

机构：

[1] 中国石油大学计算机与通信工程学院

来源：

计算机工程与设计 | 2009年 / 30卷 / 02期

关键词：

文本聚类; k-means; CURD; 向量空间模型; 参考区域;

D O I：

10.16208/j.issn1000-7024.2009.02.029

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点。针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值。理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率。

引用

页码：401 / 403+407 +407

页数：4

共 6 条

[1]

数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.2002,

[2] 文档聚类综述 [J].