本文在词语相似度计算的基础上重点研究了中文信息处理中的句子相似度。首先,比较了词语相似度计算的不同方法,实现了目前效果较好的基于HNC的词语相似度计算方法;其次,提出了基于HNC判断同义词和反义词的方法,简化了词语相似度计算,并用计算机实现;然后,在词语相似度计算的基础上,针对目前句子相似度计算方法中存在的没有考虑句子结构,词语在句子中出现的重要程度,词语在句子中所起的作用等方面的不足,提出了基于HNC语义块的句子相似度计算方法。最后,结合主观题自动批阅,给出了句子相似度计算方法的应用实例,应用实践表明本文所提出方法在逻辑错误判断,语义理解方面比目前现有的句子相似度的方法更接近人为判断结果,更易实现,操作更简单。具体来讲:本文在句子相似度计算的研究过程中,所做的主要工作及取得的主要成果如下:
(1)比较分析了词语相似度计算的各种方法,实现了基于HNC的词语相似度计算方法,为下一步句子相似度的计算打下基础。
(2)提出了一种基于HNC同义词和反义词判别方法。通过词对出现的规则来判断是否是同义词反义词,由于引入了语义,简化了词语相似度的计算。
(3)在词语相似度的基础上,提出了基于HNC语义块的句子相似度计算方法。该方法充分考虑了语句中各个词语在语句中所处的位置以及所起的作用。
(4)把基于HNC语义块的句子相似度的计算方法用于成语解释的自动批阅中,通过老师人工批阅和计算机批阅的学生得分情况对比表明本文所提出的句子相似度计算方法的实用性和有效性。