基于WordNet的英文语句相似度算法的研究

被引：0

作者：

王赫宁

机构：

[1] 东北师范大学

关键词：

语句相似度; WordNet; 汉明距离; 语义相似度; 词序相似度;

D O I：

暂无

年度学位：

2014

学位类型：

硕士

导师：

林和平;

摘要：

文字是人类文明发展和延续的重要产物，记录着人类社会的点滴进步，闪耀着数千年来人类的智慧之光。文本是书面语言的文字表现形式，文本可以是一个句子、一个段落或者是一个篇章，是信息的主要载体与知识传播的主要手段之一。随着社会信息化的飞速发展，尤其在互联网发达的今天，信息资源以惊人的速度在膨胀。如何管理和利用好这些信息资源是当今人们关心的话题。文本挖掘便是为实现对信息资源管理而诞生的一个研究领域，它把文本作为挖掘对象，从中寻找信息的结构、模型、模式等隐含的且具有潜在价值的知识。信息检索、模式识别、自然语言处理等多个研究领域均与它息息相关。文本相似度计算是文本挖掘领域中一项基础而又重要的工作，它是实现文本挖掘的关键技术之一，许多重要的应用都与它相关。如文本复制检测、文本分类、文本聚类、信息检索等，文本相似度计算都起到了重要的应用，它值得我们深入研究和探讨。本文将以WordNet为语义知识库着重研究英文语句的相似度计算方法。本文通过对相关算法的分析和研究，提出一种新的英文语句相似度算法。在计算单词间的语义相似度时，本文提出了一个新的基于距离的相似度计算模型。在计算词序相似度时，提出了基于汉明距离的相似度计算模型。最后结合语句间的语义相似度和词序相似度得出总体相似度。在实验部分，本文用三个数据集对提出的算法进行验证，其中两个数据集曾在Li的经典语句相似度算法中用于实验过的，我们也对其进行实验，便于与Li的算法得到的结果进行比较，进而分析本文语句相似度算法的优良。另一个数据集是MSRP数据集，它是一个规模较大并且带有标签的数据集，对其进行实验可以得出本文的相似度算法对该数据集中大量语句对相似性判断的准确率。在实验结论分析过后，我们对本文提出的算法进行了总结与展望。

引用

页数：35

共 15 条

[1]

基于关键词共现频率的热点分析方法研究 [J].