学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
优化初始值的K均值中文文本聚类
被引:6
作者
:
论文数:
引用数:
h-index:
机构:
焦慧
论文数:
引用数:
h-index:
机构:
刘迁
王玉英
论文数:
0
引用数:
0
h-index:
0
机构:
北京清华大学精密仪器与机械学系
王玉英
论文数:
引用数:
h-index:
机构:
贾惠波
机构
:
[1]
北京清华大学精密仪器与机械学系
来源
:
微计算机信息
|
2009年
/ 25卷
/ 21期
关键词
:
文本聚类;
K均值;
初始值优化;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
文本聚类是中文文本挖掘中的一种重要分析方法。K均值聚类算法是目前最为常用的文本聚类算法之一。但此算法在处理高维、稀疏数据集等问题时存在一些不足,且对初始聚类中心敏感。本文针对这些不足,提出了用特征词向量空间模型来降低向量的维数;并提出一种新的优化初始聚类中心的算法,即根据文章的特征词选择有代表性的初始聚类中心。实验表明特征词向量空间模型和优化初始聚类中心的算法能降低计算复杂度,增强结果的稳定性,并产生质量较高的聚类结果。
引用
收藏
页码:142 / 144
页数:3
相关论文
未找到相关数据
未找到相关数据