在自然语言处理领域,汉语句子的相似度计算是一项基础而又重要的工作,它直接决定着相关领域的研究发展状况。比如在FAQ自动问答系统、信息检索、复述、基于实例的机器翻译等领域,句子相似度计算都是一个非常关键的问题,长期以来一直是人们研究的一个热点和难点。
为了研究汉语句子相似度计算,本文分别对汉语中的义原、词语、句子三个层次的相似度计算进行了研究。并且针对目前句子相似度计算方法的不足,提出了一种改进的计算方法,最后以FAQ自动问答系统为例,给出句子相似度计算的应用实例。
本文完成的主要工作包括:
1)义原相似度计算和词语相似度计算研究。由于义原相似度计算是词语相似度计算的基础,而词语相似度计算又是句子相似度计算的基础,所以,本文基于《知网》,对义原相似度计算、词语相似度计算分别做了详细研究。
2)提出了改进的句子相似度计算方法。在上述工作的前提下,本文对句子相似度计算进行了研究,并且对其进行了改进,提出了综合多种特征来计算句子相似度的方法。即综合句子的词形相似度、语义相似度、句法结构相似度三方面特征来计算句子相似度。并且,针对词形相似度计算以及语义相似度计算方法也进行了改进,力求最终的句子相似度计算结果更为准确。
3)以FAQ自动问答系统为例介绍句子相似度的应用情况。为了说明句子相似度计算的实际应用情况,本文对FAQ自动问答系统、以及句子相似度计算方法在其中的应用进行了介绍。