基于WordNet的短文本语义相似性计算研究

被引:0
作者
张东娜
机构
[1] 吉林大学
关键词
语义相似性; 布朗词集; IC模式; WordNet; IC-CW; SS-CW; ST-CW;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
句子或者是短文本的相似度在文本相关性判断,网页检索,信息检索以及文本挖掘方面起着越来越重要的角色。在相似性计算方面已有一些算法来自于对于长文本以及大文档的相似性计算。但是这些算法在计算效率上明显不足,对短文本的表达形式不完善,并且需要比较多的人工输入信息,较多的背景知识。 本文提出了一种新的计算短文本语义距离的算法,该算法不涉及通用的相似性算法,它是基于知识库WordNet,以及词法库The Brown Corpus的相似性算法。文中构建了一种新的基于WordNet和Corpus Statistics的IC(Information Content)计算模型IC-CW,考虑概念在WordNet中语义信息以及语料库中概念的频率信息。并针对目前已有的语义相似性计算方法均与领域相关的特点,设计了一种通用的概念之间的语义相似性计算方法:SS-CW。在SS-CW的基础上又提出了一种新的文本之间的语义相似性计算方法ST-CW,在R&B以及Miller数据集上进行了实验,实验结果验证了新的模型和算法的有效性。
引用
收藏
页数:63
共 12 条
[1]
面向文本的本体学习方法综述 [J].
傅魁 ;
聂规划 .
情报杂志, 2008, (09) :16-19
[2]
语义相似性测度方法研究综述 [J].
黄世国 ;
耿国华 .
计算机应用与软件, 2008, (02) :37-39
[3]
Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738
[4]
基于潜在语义索引的中文文本检索研究 [D]. 
李媛媛 .
西南交通大学,
2008
[5]
本体理论在文献检索系统中的应用研究.[M].李景著;.北京图书馆出版社.2005,
[6]
语义网简明教程.[M].宋炜;张铭[著];.高等教育出版社.2004,
[7]
基于WordNet的本体构建及其在安全领域应用关键技术研究 [D]. 
周子力 .
华东师范大学,
2009
[8]
Semantic text similarity using corpus-based word similarity and string similarity [J].
Islam, Aminul ;
Inkpen, Diana .
ACM Transactions on Knowledge Discovery from Data, 2008, 2 (02)
[9]
Evaluating WordNet-based measures of lexical semantic relatedness [J].
Budanitsky, Alexander ;
Hirst, Graeme .
COMPUTATIONAL LINGUISTICS, 2006, 32 (01) :13-47
[10]
Explorations in context space: Words, sentences, discourse [J].
Burgess, C ;
Livesay, K ;
Lund, K .
DISCOURSE PROCESSES, 1998, 25 (2-3) :211-257