基于《知网》的句子相似度计算的研究

被引:0
作者
张玉娟
机构
[1] 中国地质大学(北京)
关键词
中文信息处理; 句子相似度; 知网; 自动问答;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
本文对文本相似度计算的各个层次进行了论述,在词语相似度计算的基础上重点研究了中文信息处理中的句子相似度计算。首先,比较了词语相似度计算的不同方法,实现了目前效果较好的基于《知网》的词语相似度计算方法;其次,在词语相似度计算的基础上,针对目前句子相似度计算方法的种种不足,提出了基于相似词对计算模句子相似度计算方法。最后,结合自动问答系统,给出了句子相似度计算方法的应用实例,并通过FAQ库中的相似问句匹配实验,证明了本文所提出方法的有效性。具体来讲:本文在句子相似度计算的研究过程中,所做的主要工作及取得的主要成果如下: (一)比较分析了词语相似度计算的各种方法,实现了目前效果较好的基于《知网》的词语相似度计算方法,为下一步句子相似度的计算打下基础。 (二)提出了一种在词语相似度的基础上,基于相似词对计算模型的句子相似度计算方法。由于目前句子语法结构分析的困难,利用句子中出现的词语的相似性来计算句子的相似性,是句子相似度计算的一个较好的思路。句子中出现的词汇之间有着各种各样的语法、语义联系,对于相似度计算,相似词对的共现是有着激励效应的。我们首先给出了相似词对共现影响的计算公式,在此基础上,提出了句子之间相似度的计算方法。 (三)结合自动问答系统,给出了句子相似度计算的应用实例。本文把句子的相似度计算用于自动问答系统中FAQ库的相似问句匹配,演示了相似度计算在具体应用中的实现过程和操作步骤。并通过问句匹配实验证明了文本所提出的句子相似度计算方法的实用性和有效性。
引用
收藏
页数:59
共 27 条
[1]
基于语义理解的文本相似度算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2005, (02) :291-297
[2]
基于E-Chunk的问句实例分析系统 [J].
骆正华 ;
樊孝忠 ;
刘林 ;
龚永罡 .
北京理工大学学报, 2005, (01) :63-66
[3]
基于ALICE的汉语自然语言接口 [J].
夏天 ;
樊孝忠 ;
刘林 ;
骆正华 .
北京理工大学学报, 2004, (10) :885-889
[4]
一种基于加权语义相似度模型的自动问答系统 [J].
刘亚军 ;
徐易 .
东南大学学报(自然科学版), 2004, (05) :609-612
[5]
文本分类中的特征选择方法 [J].
程泽凯 ;
陆小艺 .
安徽工业大学学报(自然科学版), 2004, (03) :220-224
[6]
基于语境框架的文本相似度计算 [J].
晋耀红 .
计算机工程与应用 , 2004, (16) :36-39
[7]
基于网络的中文问答系统及信息抽取算法研究 [J].
崔桓 ;
蔡东风 ;
苗雪雷 .
中文信息学报, 2004, (03) :24-31
[8]
动态语义知识网络构建研究 [J].
叶鹏 ;
樊孝忠 .
北华大学学报(自然科学版), 2004, (02) :185-188
[9]
一种基于语义体系的同义词识别研究 [J].
章成志 .
淮阴工学院学报, 2004, (01) :59-62+67
[10]
基于知网的词汇语义自动分类系统 [J].
卢鹏 ;
孙明勇 ;
陆汝占 .
计算机仿真, 2004, (02) :127-131