文本语义相似度计算方法研究

被引:0
作者
刘宏哲
机构
[1] 北京交通大学
关键词
概念相似度; 句子相似度; 文档相似度; 语义相似度计算;
D O I
暂无
年度学位
2012
学位类型
博士
导师
摘要
随着计算机和互联网技术的发展,文本数据的数量大幅度地增长,但是这类数据对于计算机来说难于理解和使用,解决这一问题的途径之一是借助语义相似度计算。遗憾的是,现有的语义相似度计算研究成果在应用时大都需要较多的附加信息,例如大规模语料库以及完备本体等,这些附加信息在实际应用领域中通常难以获得,因此成果的应用范围受到了一定的限制;此外,迄今为止研究是在不同时期、不同前提下割裂地进行的,对概念、句子和文档等研究对象的语义相似度计算研究没有形成统一的理论体系。针对以上问题,论文在不完备附加信息前提下,从概念、句子和文档三个对象层面研究文本数据的语义相似度和相关度计算,计算过程包括语义提取、语义描述、语义相似度计算三个主要阶段。各研究对象与本体的语义关系将基于本体结构进行提取,用研究对象在本体中的语义“指纹”描述对象本身,构建基于本体结构的语义向量,从而进行语义相似度计算。 研究成果主要包括以下三方面: 1.提出了一种基于树结构和以树为主体的图结构的相似度和相关度计算方法。通过分析本体的树结构,可以发现概念节点的祖先概念节点和后代概念节点与当前概念节点语义相关,据此特点可以找出概念节点在本体树中的相关概念节点;根据概念节点在本体中所处位置的结构信息计算概念节点密度,实现基于树结构本体的概念语义提取,语义描述和语义相似度计算。在树结构本体相似度计算方法的基础上,进一步提出了基于以树为主体的图结构的概念相关度计算方法。针对特定语义相关度计算需要,将以树为主体的图结构本体转化为树结构本体,计算概念节点间的语义相关度。本方法在领域数据中得到很好的应用,在标准数据集WordNet上的实验也证明:与经典的计算方法相比,在不完备附加信息背景下,本方法获得很好的皮尔森线性相关系数值(Correlation)。 2.提出了一种基于树结构本体的句子相似度计算方法。利用本体概念与句子中关键词之间建立的语义索引,构建句子与本体间的直接和间接语义联系,据此提取描述句子的语义向量,从而计算句子间的语义相似度。应用微软研究院的意译语料库(MSRP)对本方法进行验证,实验结果表明:与相关的计算方法相比,本方法在不完备附加信息应用前提下获得了较好的准确率和召回率。 3.提出了一种基于树结构本体的文档相似度计算方法。除利用本体概念与文档中的关键词建立的语义索引来构建文档与本体间的直接和间接语义联系外,还利用本体的层次结构信息估算文档关键词的权重,据此构建基于本体的文档语义向量来计算文档间的语义相似度。用Michael D.LEE50标准文档相似度测试数据集进行验证,实验结果表明:与相关的方法比较,本方法在不完备附加信息应用前提下获得了较好的皮尔森线性相关系数值。 简而概之,与已有的计算方法相比,论文提出的三种语义相似度计算方法在应用时,所需附加辅助信息少,计算过程简单高效,经过相关的数据集测试具有较好的计算精度,因此有良好的领域适应性。 图39幅,表20个,参考文献120篇。
引用
收藏
页数:143
共 18 条
[1]
基于本体的语义相似度和相关度计算研究综述 [J].
刘宏哲 ;
须德 .
计算机科学, 2012, 39 (02) :8-13
[2]
一种本体概念的语义相似度计算方法.[J].李文清;孙新;张常有;冯烨;.自动化学报.2012, 02
[3]
基于领域本体模型的概念语义相似度计算研究 [J].
刘紫玉 ;
黄磊 .
铁道学报, 2011, 33 (01) :52-57
[4]
一种基于文档相似度的检索结果重排序方法 [J].
周博 ;
岑荣伟 ;
刘奕群 ;
张敏 ;
金奕江 ;
马少平 .
中文信息学报, 2010, (03) :19-23+36
[5]
国外英语语料库简介 [J].
罗志高 .
重庆科技学院学报(社会科学版), 2008, (11) :129-130
[6]
解构英国国家语料库 [J].
李赛红 .
外语教学与研究, 2002, (04) :308-312
[7]
CONCEPT VECTOR FOR SIMILARITY MEASUREMENT BASED ON HIERARCHICAL DOMAIN STRUCTURE [J].
Liu, Hong-Zhe ;
Bao, Hong ;
Xu, De .
COMPUTING AND INFORMATICS, 2011, 30 (05) :881-900
[8]
Semantic text similarity using corpus-based word similarity and string similarity [J].
Islam, Aminul ;
Inkpen, Diana .
ACM Transactions on Knowledge Discovery from Data, 2008, 2 (02)
[9]
Evaluating WordNet-based measures of lexical semantic relatedness [J].
Budanitsky, Alexander ;
Hirst, Graeme .
COMPUTATIONAL LINGUISTICS, 2006, 32 (01) :13-47
[10]
Methods for identifying versioned and plagiarized documents [J].
Hoad, TC ;
Zobel, J .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2003, 54 (03) :203-215