基于全文检索的文本相似度算法应用研究

被引:22
作者
王格 [1 ,2 ]
吴钊 [1 ]
李向 [2 ]
机构
[1] 湖北文理学院数学与计算机科学学院
[2] 中国地质大学(武汉)计算机学院
关键词
文本相似度; 余弦VSM; Simhash;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0<n<1),最后为了实现余弦算法并提高系统效率,使用了大量容器如Map、Set和Vector以及内积算法等。实验结果表明,余弦算法VSM由于其局限性不适合进行文本的相似度计算,而Simhash算法则具有高准确度以及可行性。
引用
收藏
页码:567 / 571+614 +614
页数:6
相关论文
共 7 条
[1]
基于LDA主题模型的文本相似度计算 [J].
王振振 ;
何明 ;
杜永萍 .
计算机科学, 2013, 40 (12) :229-232
[2]
一种基于词共现的文本相似度计算 [J].
曹恬 ;
周丽 ;
张国煊 .
计算机工程与科学, 2007, (03) :52-53+73
[3]
文档相似度综合计算研究 [J].
宋玲 ;
马军 ;
连莉 ;
张志军 .
计算机工程与应用, 2006, (30) :160-163
[4]
基于语境框架的文本相似度计算 [J].
晋耀红 .
计算机工程与应用 , 2004, (16) :36-39
[5]
文本分类中的特征选取 [J].
刘丽珍 ;
宋瀚涛 .
计算机工程, 2004, (04) :14-15+175
[6]
基于汉明距离的文本相似度计算 [J].
张焕炯 ;
王国胜 ;
钟义信 ;
不详 .
计算机工程与应用 , 2001, (19) :21-22
[7]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11