一种结合词项语义信息和TF-IDF方法的文本相似度量方法

被引：662

作者：

黄承慧 ^{[1
,2
]}

印鉴 ^{[1
]}

侯昉 ^{[2
]}

机构：

[1] 中山大学信息科学与技术学院

[2] 广东金融学院计算机科学与技术系

来源：

计算机学报 | 2011年 / 34卷 / 05期

基金：

广东省科技计划;

关键词：

文本聚类; 词项语义相似度; 文本相似度; 自然语言处理;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.

引用

页码：856 / 864

页数：9