一种基于知网的句子相似度计算方法

被引:26
作者
程传鹏
吴志刚
机构
[1] 中原工学院计算机学院
关键词
句子相似度; 知网; 表层相似度; 语义偏移量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
句子相似度是衡量文档相似度的基础,在自然语言处理领域中有着非常重要的作用。目前的句子相似度计算方法忽略了句子的结构对相似度的影响。本文在分析已有研究工作的基础上,提出了一种改进的句子相似度计算方法。依据知网对"实体概念"的描述,构造出义原的语义层次树,由各个义原在树中的相对位置,计算出义原之间的相似度。对三种义原加权求和得到词语之间的语义相似度。综合句子的表层相似度和句子的词语语义以及词语的相对位置关系,得到句子的整体相似度。实验表明,在同等的测试条件下,本文所提出的句子相似度计算方法在相似度比较上更符合人的直观感觉。
引用
收藏
页码:172 / 175
页数:4
相关论文
共 4 条
[1]   基于词串粒度及权值的汉语句子相似度衡量 [J].
王荣波 ;
池哲儒 ;
常宝宝 ;
柏晓静 .
计算机工程, 2005, (13) :142-144
[2]   句子相似模型和最相似句子查找算法 [J].
吕学强 ;
任飞亮 ;
黄志丹 ;
姚天顺 ;
不详 .
东北大学学报 , 2003, (06) :531-534
[3]  
同义词词林[M]. 上海辞书出版社 , 梅家驹等编, 1996
[4]  
知网 .2 董振东,董强. http://www.keenage.com . 1992