共 5 条
一种改进的K均值文本聚类算法
被引:18
作者:
安计勇
[1
]
高贵阁
[2
]
史志强
[2
]
孙磊
[3
]
机构:
[1] 中国矿业大学计算机科学与技术学院
[2] 部队
[3] 中国矿业大学图文信息中心
来源:
基金:
高等学校博士学科点专项科研基金;
关键词:
簇密度;
K均值;
置信半径;
海明距离;
轮廓系数;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
提出了一种改进的K均值文本聚类算法。该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量。实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量。
引用
收藏
页码:130 / 133
页数:4
相关论文