概念向量文本聚类算法

被引:11
作者
白秋产 [1 ]
金春霞 [2 ]
周海岩 [2 ]
机构
[1] 淮阴工学院电子与电气工程学院
[2] 淮阴工学院计算机工程学院
关键词
知网; 概念语义场; 义原抽取; 概念向量; 文本聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性,而导致文本向量概念表达不够准确,提出基于概念向量的文本聚类算法TCBCV(Text Clustering Based on Concept Vector),采用HowNet的概念属性,并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念,实现关键词到概念的映射,不仅增加了文本之间的语义关系,而且降低了向量维度,将其应用于文本聚类,能够提高文本聚类效果。实验结果表明,该算法在文本聚类的准确率和召回率上都得到了较大的提高。
引用
收藏
页码:155 / 157+209 +209
页数:4
相关论文
共 3 条