本文对文本相似度计算的各个层次进行了论述,在词语相似度计算的基础上重点研究了中文信息处理中的句子相似度计算。首先,比较了词语相似度计算的不同方法,实现了目前效果较好的基于《知网》的词语相似度计算方法;其次,在词语相似度计算的基础上,针对目前句子相似度计算方法的种种不足,提出了基于相似词对计算模句子相似度计算方法。最后,结合自动问答系统,给出了句子相似度计算方法的应用实例,并通过FAQ库中的相似问句匹配实验,证明了本文所提出方法的有效性。具体来讲:本文在句子相似度计算的研究过程中,所做的主要工作及取得的主要成果如下:
(一)比较分析了词语相似度计算的各种方法,实现了目前效果较好的基于《知网》的词语相似度计算方法,为下一步句子相似度的计算打下基础。
(二)提出了一种在词语相似度的基础上,基于相似词对计算模型的句子相似度计算方法。由于目前句子语法结构分析的困难,利用句子中出现的词语的相似性来计算句子的相似性,是句子相似度计算的一个较好的思路。句子中出现的词汇之间有着各种各样的语法、语义联系,对于相似度计算,相似词对的共现是有着激励效应的。我们首先给出了相似词对共现影响的计算公式,在此基础上,提出了句子之间相似度的计算方法。
(三)结合自动问答系统,给出了句子相似度计算的应用实例。本文把句子的相似度计算用于自动问答系统中FAQ库的相似问句匹配,演示了相似度计算在具体应用中的实现过程和操作步骤。并通过问句匹配实验证明了文本所提出的句子相似度计算方法的实用性和有效性。