基于自适应簇中心选择的文本聚类算法研究

被引：1

作者：

翟东海 ^{[1
,2
]}

聂洪玉 ^{[1
]}

崔静静 ^{[1
]}

杜佳 ^{[1
]}

机构：

[1] 西南交通大学信息科学与技术学院

[2] 西藏大学工学院

来源：

成都信息工程学院学报 | 2013年 / 28卷 / 06期

关键词：

海量数据挖掘; 初始簇中心; 文档距离; K-means算法;

D O I：

10.16836/j.cnki.jcuit.2013.06.009

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法。首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数。实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善。

引用

页码：617 / 622

页数：6

共 6 条

[1] 一种基于密度的K-means算法研究 [J].