基于《知网》的词语相似度算法研究

被引：34

作者：

刘青磊

顾小丰

机构：

[1] 电子科技大学计算机科学与工程学院

来源：

中文信息学报 | 2010年 / 24卷 / 06期

关键词：

《知网》; 词语相似度; 句子相似度; 共有信息; 差异信息;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

基于《知网》的词语(句子)相似度计算通常是把义原(词语)之间的最优匹配做为运算的基本单位的,最终的整体相似度数值可由每一部分的相似度值通过适当的加权计算合成而来,这样的做法往往会造成一些匹配对的信息重复和结构不合理。针对这个问题,该文通过统计出两个直接义原集合间的共有信息(共性)和差异信息(个性)来计算集合的相似度,并把此方法引入到词语(句子)的相似度计算中去。最终的实验比对结果表明该文所采用的方法更为稳定和有效。

引用

页码：31 / 36

页数：6