基于参考区域的k-means文本聚类算法

被引:8
作者
索红光
王玉伟
机构
[1] 中国石油大学计算机与通信工程学院
关键词
文本聚类; k-means; CURD; 向量空间模型; 参考区域;
D O I
10.16208/j.issn1000-7024.2009.02.029
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点。针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值。理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率。
引用
收藏
页码:401 / 403+407 +407
页数:4
相关论文
共 6 条
[1]  
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.2002,
[2]   文档聚类综述 [J].
刘远超 ;
王晓龙 ;
徐志明 ;
关毅 .
中文信息学报, 2006, (03) :55-62
[3]   一种基于自动阈值发现的文本聚类方法 [J].
张猛 ;
王大玲 ;
于戈 .
计算机研究与发展, 2004, (10) :1748-1753
[4]   一种基于参考点和密度的快速聚类算法 [J].
马帅 ;
王腾蛟 ;
唐世渭 ;
杨冬青 ;
高军 .
软件学报, 2003, (06) :1089-1095
[5]   基于免疫规划的K-means聚类算法 [J].
行小帅 ;
潘进 ;
焦李成 .
计算机学报, 2003, (05) :605-610
[6]   Concept decompositions for large sparse text data using clustering [J].
Dhillon, IS ;
Modha, DS .
MACHINE LEARNING, 2001, 42 (1-2) :143-175