基于语义距离的高效文本聚类算法

被引:15
作者
冯少荣
肖文俊
机构
[1] 华南理工大学计算机科学与工程学院
关键词
文本聚类; 语义距离; 相似度; 最近邻聚类; 聚类算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法.
引用
收藏
页码:30 / 37
页数:8
相关论文
共 8 条