共 2 条
基于相似中心的k-cmeans文本聚类算法
被引:12
作者:
许厚金
[1
]
刘永炎
[2
]
邓成玉
[1
]
刘永山
[1
]
机构:
[1] 燕山大学信息科学与工程学院
[2] 张家口教育学院数学系
来源:
关键词:
聚类;
k-cmeans算法;
相似性度量;
宏平均聚类精度;
宏平均召回率;
D O I:
10.16208/j.issn1000-7024.2010.08.020
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的文本聚类算法。首先,度量文档之间的相似性,然后按照文档之间的相似性递减排序,选择序列最前面的k个文档作为初始聚类中心,对于每个剩余的文档(没有被选为初始簇中心的文档)根据其与存在的簇中心的相似性,将其分配到相似性最大的簇中,更新簇均值,连续迭代,直至均值不变,从而得到更加稳定的聚类结果。实验结果表明,提出的算法在宏平均聚类精度和宏平均召回率上有显著提高,产生了质量较好的聚类效果。
引用
收藏
页码:1802 / 1805
页数:4
相关论文