一种改进的K均值文本聚类算法

被引:18
作者
安计勇 [1 ]
高贵阁 [2 ]
史志强 [2 ]
孙磊 [3 ]
机构
[1] 中国矿业大学计算机科学与技术学院
[2] 部队
[3] 中国矿业大学图文信息中心
基金
高等学校博士学科点专项科研基金;
关键词
簇密度; K均值; 置信半径; 海明距离; 轮廓系数;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出了一种改进的K均值文本聚类算法。该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量。实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量。
引用
收藏
页码:130 / 133
页数:4
相关论文
共 5 条
[1]   最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[2]   基于改进海明距离的二元表示聚类研究 [J].
姜士强 ;
杨济亭 ;
任芹玉 .
信息技术, 2013, 37 (04) :88-91
[3]   一种有效的K-means聚类中心初始化方法 [J].
熊忠阳 ;
陈若田 ;
张玉芳 .
计算机应用研究, 2011, 28 (11) :4188-4190
[4]   基于节点数据密度的分布式K-means聚类算法研究 [J].
张科泽 ;
杨鹤标 ;
沈项军 ;
蒋中秋 .
计算机应用研究, 2011, 28 (10) :3643-3645+3655
[5]   基于最优划分的K-Means初始聚类中心选取算法 [J].
张健沛 ;
杨悦 ;
杨静 ;
张泽宝 .
系统仿真学报, 2009, (09) :2586-2590