优化初始值的K均值中文文本聚类

被引：6

作者：

焦慧

刘迁

王玉英

贾惠波

机构：

[1] 北京清华大学精密仪器与机械学系

来源：

微计算机信息 | 2009年 / 25卷 / 21期

关键词：

文本聚类; K均值; 初始值优化;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

文本聚类是中文文本挖掘中的一种重要分析方法。K均值聚类算法是目前最为常用的文本聚类算法之一。但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感。本文针对这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心。实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果。

引用

页码：142 / 144

页数：3