基于文本空间表示模型的文本相似度计算研究

被引:4
作者
张文萍 [1 ]
黎春兰 [2 ]
机构
[1] 武汉科技大学管理学院
[2] 武汉大学信息管理学院
关键词
文本相似度; 文本空间表示模型; 段落; 算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在分析现有文本表示法的基础之处,提出一种以段落、语句、词语为层次结构的文本表示方法———文本空间表示模型,并在此模型基础上探讨一种以文本段落为基本单位的相似文本计算算法,以实现相似文本检测目标。最后建立测试集并在测试集上执行检测实验,结果表明此方具有较好的相似文本发现效果。
引用
收藏
页码:21 / 23+124 +124
页数:4
相关论文
共 6 条
[1]   基于非对称相似度的文本聚类方法 [J].
宋韶旭 ;
李春平 .
清华大学学报(自然科学版), 2006, (07) :1325-1328
[2]   基于语义理解的文本相似度算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2005, (02) :291-297
[3]   计算文本相似度阈值的方法 [J].
刁力力 ;
王丽坤 ;
陆玉昌 ;
石纯一 .
清华大学学报(自然科学版), 2003, (01) :108-111
[4]   Semantic text similarity using corpus-based word similarity and string similarity [J].
University of Ottawa ;
不详 .
ACM Transactions on Knowledge Discovery from Data, 2008, 2 (02)
[5]  
A method for evaluating modern systems of automatic text summarization[J] . V. A. Yatsko,T. N. Vishnyakov.Automatic Documentation and Mathematical Linguistics . 2007 (3)
[6]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)