基于部件的文本相似度计算

被引：4

作者：

程玉柱

邬书跃

机构：

[1] 湖南涉外经济学院信息与电子工程系

来源：

计算机工程与设计 | 2006年 / 18期

关键词：

信息检索; 复制检测; 相似度; 自然语言处理; 部件;

D O I：

10.16208/j.issn1000-7024.2006.18.041

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景。研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度。实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点。

引用

页码：3444 / 3446

页数：3