基于自适应簇中心选择的文本聚类算法研究

被引:1
作者
翟东海 [1 ,2 ]
聂洪玉 [1 ]
崔静静 [1 ]
杜佳 [1 ]
机构
[1] 西南交通大学信息科学与技术学院
[2] 西藏大学工学院
关键词
海量数据挖掘; 初始簇中心; 文档距离; K-means算法;
D O I
10.16836/j.cnki.jcuit.2013.06.009
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。
引用
收藏
页码:617 / 622
页数:6
相关论文
共 6 条
[1]   一种基于密度的K-means算法研究 [J].
张琳 ;
陈燕 ;
汲业 ;
张金松 .
计算机应用研究, 2011, 28 (11) :4071-4073+4085
[2]   基于k-means聚类算法的研究 [J].
黄韬 ;
刘胜辉 ;
谭艳娜 .
计算机技术与发展, 2011, 21 (07) :54-57+62
[3]   基于聚类准则函数的改进K-means算法 [J].
张雪凤 ;
张桂珍 ;
刘鹏 .
计算机工程与应用 , 2011, (11) :123-127
[4]   基于Leader的K均值改进算法 [J].
张琼 ;
张莹 ;
白清源 ;
谢丽聪 ;
谢伙生 .
福州大学学报(自然科学版), 2008, (04) :493-496
[5]   一种基于K-Means局部最优性的高效聚类算法 [J].
雷小锋 ;
谢昆青 ;
林帆 ;
夏征义 .
软件学报, 2008, (07) :1683-1692
[6]  
Data clustering: 50 years beyond K-means[J] . Anil K. Jain.Pattern Recognition Letters . 2009 (8)