基于密度和最近邻的K-means文本聚类算法

被引:30
作者
张文明
吴江
袁小蛟
机构
[1] 西北大学信息科学与技术学院
关键词
文本聚类; 密度; 最近邻; F度量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
初始中心点的选择对于传统的K-means算法聚类结果影响较大,容易使聚类陷入局部最优解。针对这个问题,引入密度和最近邻思想,提出了生成初始聚类中心的算法Initial。将所选聚类中心用于K-means算法,得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明,该算法可以生成聚类质量较高并且稳定性较好的结果。
引用
收藏
页码:1933 / 1935
页数:3
相关论文
共 6 条
  • [1] 文本聚类综述[J].吴启明,易云飞. 河池学院学报.2008(02)
  • [2] 一种基于密度的K-均值算法[J].刘艳丽,刘希云. 计算机工程与应用.2007(32)
  • [3] 一种基于参考点和密度的快速聚类算法[J].马帅,王腾蛟,唐世渭,杨冬青,高军. 软件学报.2003(06)
  • [4] 基于向量空间模型的文档聚类算法研究[J].何飞,蒋冬初. 湖南城市学院学报.2003(03)
  • [5] 从多角度分析现有聚类算法(英文)[J].钱卫宁,周傲英. 软件学报.2002(08)
  • [6] Avectorspacemodelforautomaticindexing[J].G.Salton,A.Wong,C.S.Yang. CommunicationsoftheACM.1975(11)