一种用于文本聚类的改进的K均值算法

被引：22

作者：

任江涛

孙婧昊

施潇潇

黄焕宇

印鉴

机构：

[1] 中山大学计算机科学系

来源：

计算机应用 | 2006年 / S1期

基金：

广东省自然科学基金;

关键词：

文本聚类; 特征选择; 初始化;

D O I：

暂无

中图分类号：

TP301.6 [算法理论];

学科分类号：

摘要：

K均值算法是聚类分析中使用最为广泛的算法之一。针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进。实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法。

引用

页码：73 / 75

页数：3