基于WordNet的英文语句相似度算法的研究

被引:0
作者
王赫宁
机构
[1] 东北师范大学
关键词
语句相似度; WordNet; 汉明距离; 语义相似度; 词序相似度;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
文字是人类文明发展和延续的重要产物,记录着人类社会的点滴进步,闪耀着数千年来人类的智慧之光。文本是书面语言的文字表现形式,文本可以是一个句子、一个段落或者是一个篇章,是信息的主要载体与知识传播的主要手段之一。随着社会信息化的飞速发展,尤其在互联网发达的今天,信息资源以惊人的速度在膨胀。如何管理和利用好这些信息资源是当今人们关心的话题。文本挖掘便是为实现对信息资源管理而诞生的一个研究领域,它把文本作为挖掘对象,从中寻找信息的结构、模型、模式等隐含的且具有潜在价值的知识。信息检索、模式识别、自然语言处理等多个研究领域均与它息息相关。 文本相似度计算是文本挖掘领域中一项基础而又重要的工作,它是实现文本挖掘的关键技术之一,许多重要的应用都与它相关。如文本复制检测、文本分类、文本聚类、信息检索等,文本相似度计算都起到了重要的应用,它值得我们深入研究和探讨。本文将以WordNet为语义知识库着重研究英文语句的相似度计算方法。本文通过对相关算法的分析和研究,提出一种新的英文语句相似度算法。在计算单词间的语义相似度时,本文提出了一个新的基于距离的相似度计算模型。在计算词序相似度时,提出了基于汉明距离的相似度计算模型。最后结合语句间的语义相似度和词序相似度得出总体相似度。在实验部分,本文用三个数据集对提出的算法进行验证,其中两个数据集曾在Li的经典语句相似度算法中用于实验过的,我们也对其进行实验,便于与Li的算法得到的结果进行比较,进而分析本文语句相似度算法的优良。另一个数据集是MSRP数据集,它是一个规模较大并且带有标签的数据集,对其进行实验可以得出本文的相似度算法对该数据集中大量语句对相似性判断的准确率。在实验结论分析过后,我们对本文提出的算法进行了总结与展望。
引用
收藏
页数:35
共 15 条
[1]
基于关键词共现频率的热点分析方法研究 [J].
吴晓秋 ;
吕娜 .
情报理论与实践, 2012, (08) :115-119
[2]
基于维基百科的语义相似度计算方法 [J].
盛志超 ;
陶晓鹏 .
计算机工程, 2011, 37 (07) :193-195
[3]
基于本体的语义相似度计算方法研究综述 [J].
孙海霞 ;
钱庆 ;
成颖 .
现代图书情报技术, 2010, (01) :51-56
[4]
基于概念的文本表示模型 [J].
陈龙 ;
范瑞霞 ;
高琪 .
计算机工程与应用, 2008, (20) :162-164
[5]
网络信息检索的智能化趋势 [J].
徐谦 .
图书馆理论与实践, 2006, (02) :63-65
[6]
基于Corpus库的词语相似度计算方法 [J].
章志凌 ;
虞立群 ;
陈奕秋 ;
罗海飞 ;
邵晓敏 .
计算机应用, 2006, (03) :638-640+644
[7]
基于WordNet概念向量空间模型的文本分类 [J].
张剑 ;
李春平 .
计算机工程与应用 , 2006, (04) :174-178
[8]
自动问答系统中的问题理解研究 [J].
曹志娟 ;
李祖枢 ;
刘朝涛 .
计算机科学, 2005, (11) :158-160+230
[9]
文本信息检索中的概率模型 [J].
张文进 .
情报杂志, 2005, (03) :107-110
[10]
基于汉明距离的文本相似度计算 [J].
张焕炯 ;
王国胜 ;
钟义信 ;
不详 .
计算机工程与应用 , 2001, (19) :21-22