一种基于公共词块的英文短文本相似度算法

被引:7
作者
黄贤英
刘英涛
饶勤菲
机构
[1] 重庆理工大学计算机科学与工程学院
关键词
短文本; 词序; 公共词块; 相似度算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
短文本相似度计算是自然语言处理方面的研究热点,传统基于词项的文本相似度算法只考虑了词项因素,忽略了词序对短文本相似性的影响。为此提出了一种基于公共词块的短文本相似度计算方法,综合考虑了词项和词序因素,将基于词项重合的重叠相似度算法与公共词块间的词序相似度算法相结合,并采用自适应的加权组合方式得到短文本相似度值。实验结果显示:与传统算法相比,该算法在稳定性和F值方面都具有较好的结果。
引用
收藏
页码:88 / 93
页数:6
相关论文
共 11 条
[11]   Semantic text similarity using corpus-based word similarity and string similarity [J].
University of Ottawa ;
不详 .
ACM Transactions on Knowledge Discovery from Data, 2008, 2 (02)