心理学上,相似性是人们感知不同对象刺激后产生的定性反应,而相似度则是对相似性的定量表示。相似度的计算就是将这种定性转换定量计算的过程。在现实世界中,文本是信息最常用最重要的载体。计算机对文本相似度的计算是信息处理中一个非常基础而又关键的问题,在机器翻译、文献检索、文档归类等诸多领域都有着广泛应用。但是传统的向量空间模型忽略了中文词汇之间的语义关系,向量空间存在高维稀疏等问题,中文文本相似度计算不如人意。中文在表现手法上的多样性,中文文本相似度计算一直是一个研究的热点。
本文就中文文本相似度问题,以优化中文文本相似度计算为目标,提出一种基于语义领域的向量空间模型。主要工作如下:
1.对现有的文本相似度方法进行了学习和分析,重点研究了向量空间模型、本体论和隐士语义的文本相似度计算方法;
2.结合向量空间模型文本量化思路以及本体论的量化思路,在Hownet中文词典基础上提出一种以语义领域为向量空间维度的文本量化模型,把中文语义融合到量化过程中,改善了传统向量空间模型在语义层面上的不足。并加入自定义加权模块,使文本相似度计算更加贴近实际应用。
3.在文本预处理中,提出一种基于《同义词词林》的特征词合并过滤算法,在降低特征项维度的同时规避了同义词带来的影响。以延长文本预处理时间来减小文本相似度计算开销。
4.通过人工测试和自动测试的方式,来考察算法成效。构建中文文本分类系统,通过对分类结果来评估相似度计算;同义词约简后对计算相似度的影响来评估同义词特征项过滤算法。