一种用于文本聚类的改进的K均值算法

被引:22
作者
任江涛
孙婧昊
施潇潇
黄焕宇
印鉴
机构
[1] 中山大学计算机科学系
基金
广东省自然科学基金;
关键词
文本聚类; 特征选择; 初始化;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
K均值算法是聚类分析中使用最为广泛的算法之一。针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进。实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法。
引用
收藏
页码:73 / 75
页数:3
相关论文
empty
未找到相关数据