句子或者是短文本的相似度在文本相关性判断,网页检索,信息检索以及文本挖掘方面起着越来越重要的角色。在相似性计算方面已有一些算法来自于对于长文本以及大文档的相似性计算。但是这些算法在计算效率上明显不足,对短文本的表达形式不完善,并且需要比较多的人工输入信息,较多的背景知识。
本文提出了一种新的计算短文本语义距离的算法,该算法不涉及通用的相似性算法,它是基于知识库WordNet,以及词法库The Brown Corpus的相似性算法。文中构建了一种新的基于WordNet和Corpus Statistics的IC(Information Content)计算模型IC-CW,考虑概念在WordNet中语义信息以及语料库中概念的频率信息。并针对目前已有的语义相似性计算方法均与领域相关的特点,设计了一种通用的概念之间的语义相似性计算方法:SS-CW。在SS-CW的基础上又提出了一种新的文本之间的语义相似性计算方法ST-CW,在R&B以及Miller数据集上进行了实验,实验结果验证了新的模型和算法的有效性。