基于部件的文本相似度计算

被引:4
作者
程玉柱
邬书跃
机构
[1] 湖南涉外经济学院信息与电子工程系
关键词
信息检索; 复制检测; 相似度; 自然语言处理; 部件;
D O I
10.16208/j.issn1000-7024.2006.18.041
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
相似度的计算在信息检索及文档复制检测等领域具有广泛的应用前景。研究了文本相似度的计算方法,以汉字数学表达式理论为基础,提出了一种新的文本部件粒度表示方法,根据部件频次建立文本特征向量空间模型,并在此模型基础上给出了相应的文本相似度计算公式及算法,用于计算两文本之间的相似度。实验结果表明,该算法与现有典型的相似度计算方法相比,具有实现精度高、计算简便等优点。
引用
收藏
页码:3444 / 3446
页数:3
相关论文
共 3 条
[1]   汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[2]   基于属性论的文本相似度计算 [J].
潘谦红 ;
王炬 ;
史忠植 .
计算机学报, 1999, (06) :651-655
[3]   基于篇章多级依存结构的自动文摘研究 [J].
刘挺 ;
王开铸 .
计算机研究与发展, 1999, (04) :96-105