基于N-gram和向量空间模型的语句相似度研究

被引:13
作者
王金铨 [1 ]
梁茂成 [1 ]
俞洪亮 [2 ]
机构
[1] 北京外国语大学
[2] 扬州大学外国语学院
关键词
形式; 语义; 相似度; 潜在语义分析;
D O I
暂无
中图分类号
H0 [语言学];
学科分类号
030303 ; 0501 ; 050102 ;
摘要
语句相似度研究广泛应用于信息检索、语言测试自动评分和机器翻译评价等领域。以往的研究有的注重语言形式,有的偏重语言意义,把形式和意义结合起来对语句相似度进行综合考察的研究则比较少见。本文运用自然语言处理中的N-gram方法,结合向量空间模型,从语言形式和语言意义两个方面出发对语句相似度进行了深入研究。研究结果表明,该算法计算出的语句相似度与中外评分员评判的相似度之间具有较高的一致性,总体相关系数分别达到了.928和.925,显示本研究所提出的相似度算法效果显著。
引用
收藏
页码:405 / 413+438 +438
页数:10
相关论文
共 4 条
[1]   学习者书面语语篇连贯性的研究 [J].
梁茂成 .
现代外语, 2006, (03) :284-292+330
[2]   潜伏语义分析的理论及其应用 [J].
桂诗春 .
现代外语, 2003, (01) :76-84
[3]  
统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning,(德)HinrichSchutze著, 2005
[4]  
An introduction to latent semantic analysis[J] . Thomas K. Landauer,Peter W. Foltz,Darrell Laham.Discourse Processes . 1998 (2-3)