基于语义领域向量空间模型的文本相似度计算

被引:0
作者
唐果
机构
[1] 云南大学
关键词
文本相似度; 向量空间模型; 语义分析; 同义词词林;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
心理学上,相似性是人们感知不同对象刺激后产生的定性反应,而相似度则是对相似性的定量表示。相似度的计算就是将这种定性转换定量计算的过程。在现实世界中,文本是信息最常用最重要的载体。计算机对文本相似度的计算是信息处理中一个非常基础而又关键的问题,在机器翻译、文献检索、文档归类等诸多领域都有着广泛应用。但是传统的向量空间模型忽略了中文词汇之间的语义关系,向量空间存在高维稀疏等问题,中文文本相似度计算不如人意。中文在表现手法上的多样性,中文文本相似度计算一直是一个研究的热点。 本文就中文文本相似度问题,以优化中文文本相似度计算为目标,提出一种基于语义领域的向量空间模型。主要工作如下: 1.对现有的文本相似度方法进行了学习和分析,重点研究了向量空间模型、本体论和隐士语义的文本相似度计算方法; 2.结合向量空间模型文本量化思路以及本体论的量化思路,在Hownet中文词典基础上提出一种以语义领域为向量空间维度的文本量化模型,把中文语义融合到量化过程中,改善了传统向量空间模型在语义层面上的不足。并加入自定义加权模块,使文本相似度计算更加贴近实际应用。 3.在文本预处理中,提出一种基于《同义词词林》的特征词合并过滤算法,在降低特征项维度的同时规避了同义词带来的影响。以延长文本预处理时间来减小文本相似度计算开销。 4.通过人工测试和自动测试的方式,来考察算法成效。构建中文文本分类系统,通过对分类结果来评估相似度计算;同义词约简后对计算相似度的影响来评估同义词特征项过滤算法。
引用
收藏
页数:62
共 25 条
[1]
基于语义距离的概念语义相似度研究 [D]. 
赵巾帼 .
中南大学,
2008
[2]
本体论在公安案情理解中的研究与应用 [D]. 
万伟 .
南昌大学,
2007
[3]
语义相似度计算及其应用研究 [D]. 
宋玲 .
山东大学,
2009
[4]
Semantic computation in a Chinese question-answering system [J].
Li, SJ ;
Zhang, J ;
Huang, X ;
Bai, S ;
Liu, Q .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2002, 17 (06) :933-939
[5]
基于同义词词林的文本特征选择方法 [J].
郑艳红 ;
张东站 .
厦门大学学报(自然科学版), 2012, 51 (02) :200-203
[6]
基于同义词词林的词语相似度计算方法 [J].
田久乐 ;
赵蔚 .
吉林大学学报(信息科学版), 2010, 28 (06) :602-608
[7]
语义网自适应学习系统中领域本体的构建 [J].
赵蔚 ;
刘秀琴 ;
邱百爽 .
吉林大学学报(信息科学版), 2008, (05) :514-518
[8]
基于同义词词林的文本特征选择与加权研究 [J].
吕震宇 ;
林永民 ;
赵爽 ;
朱卫东 .
情报杂志, 2008, (05) :130-132
[9]
基于本体的概念间语义相似度计算方法研究 [J].
徐德智 ;
王怀民 .
计算机工程与应用 , 2007, (08) :154-156
[10]
基于词汇语义计算的文本相似度研究 [J].
余刚 ;
裴仰军 ;
朱征宇 ;
陈华月 .
计算机工程与设计, 2006, (02) :241-244