词语语义相关度计算研究

被引:0
作者
游博
机构
[1] 华中师范大学
关键词
语义相关度; 核函数; 文本聚类;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
词语语义相关度是表示两个词语相关程度的一个概念,它反映的是词语的关联程度,即看到一个词语,是不是可以想到另外一个词语,我们可以用两个词语在同一语境下共同出现的可能性来衡量这两个词语的语义相关度。语义相似度和语义相关度是两个很容易混淆的概念,语义相似度是指词语之间的相似性。语义相关度和语义相似度之间是有联系的,如果两个词语语义相似,那么它们一定语义相关,但是反过来,如果两个词语语义相关,它们不一定语义相似,所以我们可以将语义相似度作为语义相关度计算的一个组成部分。 语义相关度计算对于机器翻译、信息检索、文本分析等自然语言处理研究任务具有重要意义,是一项基础性的研究工作。本文研究了现有的语义相关度计算方法,然后提出了一种基于搜索引擎的语义相关度计算方法,具体的工作如下: 第一、现有的词语语义相关度计算方法大致可以分为传统的语义相关度计算方法和基于网络百科全书的语义相关度计算方法;而传统的方法又可以进一步分为两类:基于语义词典(WordNet、知网)的计算方法和基于语料库的计算方法。本文对这些方法需要用到的语义资源做了详细的介绍,紧接着阐述了每一类中具有代表性的几种语义相关度计算方法,详细分析它们的理论基础和特点。 第二、提出了一种核函数与Page Counts相结合的语义相关度计算方法,Page Counts是我们使用搜索引擎进行查询时返回的页面数。这为我们进行语义相关度研究提供了一个新的方向,充分利用高速发展的网络技术,为我们的研究服务。同时,我们还从以下三个方面验证了该方法的有效性:1、分析其理论依据;2、在标准测试集上实验,然后与人工判断的结果做比较;3、特定环境下评估该方法。通过实验验证,本文提出的方法与单独使用核函数或者Page Counts计算语义相关度对比,得到的结果与人工判断的结果更接近,所以本文提出的方法是有效的。 第三、本文介绍了语义相关度计算的一个应用——文本聚类,在词语语义相关度计算结果的基础上,对文本的语义相关度进行计算,我们可以提高文本聚类的精度。
引用
收藏
页数:48
共 9 条
[1]
基于内容相关度计算的文本结构分析方法研究 [D]. 
钟茂生 .
上海交通大学,
2010
[2]
语义学.[M].(英)杰弗里·利奇(GeoffreyLeech)著;李瑞华等译;.上海外语教育出版社.1987,
[3]
Evaluating WordNet-based measures of lexical semantic relatedness [J].
Budanitsky, Alexander ;
Hirst, Graeme .
COMPUTATIONAL LINGUISTICS, 2006, 32 (01) :13-47
[4]
Latent semantic kernels [J].
Cristianini, N ;
Shawe-Taylor, J ;
Lodhi, H .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 18 (2-3) :127-152
[5]
CONTEXTUAL CORRELATES OF SEMANTIC SIMILARITY [J].
MILLER, GA ;
CHARLES, WG .
LANGUAGE AND COGNITIVE PROCESSES, 1991, 6 (01) :1-28
[6]
CONTEXTUAL CORRELATES OF SYNONYMY [J].
RUBENSTEIN, H ;
GOODENOUGH, JB .
COMMUNICATIONS OF THE ACM, 1965, 8 (10) :627-+
[7]
知网的理论发现 [J].
董振东 ;
董强 ;
郝长伶 .
中文信息学报, 2007, (04) :3-9
[8]
基于知网的语义相关度计算 [J].
许云 ;
樊孝忠 ;
张锋 .
北京理工大学学报, 2005, (05) :411-414
[9]
问答式检索技术及评测研究综述 [J].
吴友政 ;
赵军 ;
段湘煜 ;
徐波 .
中文信息学报, 2005, (03) :1-13