一种基于公共词块的英文短文本相似度算法

被引:7
作者
黄贤英
刘英涛
饶勤菲
机构
[1] 重庆理工大学计算机科学与工程学院
关键词
短文本; 词序; 公共词块; 相似度算法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
短文本相似度计算是自然语言处理方面的研究热点,传统基于词项的文本相似度算法只考虑了词项因素,忽略了词序对短文本相似性的影响。为此提出了一种基于公共词块的短文本相似度计算方法,综合考虑了词项和词序因素,将基于词项重合的重叠相似度算法与公共词块间的词序相似度算法相结合,并采用自适应的加权组合方式得到短文本相似度值。实验结果显示:与传统算法相比,该算法在稳定性和F值方面都具有较好的结果。
引用
收藏
页码:88 / 93
页数:6
相关论文
共 11 条
[1]   基于语义与最大匹配度的短文本分类研究 [J].
孙建旺 ;
吕学强 ;
张雷瀚 .
计算机工程与设计, 2013, 34 (10) :3613-3618
[2]   改进的基于《知网》的词汇语义相似度计算 [J].
朱征宇 ;
孙俊华 .
计算机应用, 2013, 33 (08) :2276-2279+2288
[3]   基于隐主题分析和文本聚类的微博客中新闻话题的发现 [J].
路荣 ;
项亮 ;
刘明荣 ;
杨青 .
模式识别与人工智能, 2012, 25 (03) :382-387
[4]   概念树在短文本语义相似度上的应用 [J].
赵小谦 ;
郑彦 ;
储海庆 .
计算机技术与发展, 2012, 22 (06) :159-162
[5]   语义分析与词频统计相结合的中文文本相似度量方法研究 [J].
华秀丽 ;
朱巧明 ;
李培峰 .
计算机应用研究, 2012, 29 (03) :833-836
[6]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[7]   基于《知网》的汉语未登录词语义相似度计算 [J].
张瑞霞 ;
杨国增 ;
吴慧欣 .
中文信息学报, 2012, 26 (01) :16-21
[8]   动态向量的中文短文本聚类 [J].
金春霞 ;
周海岩 .
计算机工程与应用, 2011, 47 (33) :156-158
[9]   基于概念网络的短文本分类方法 [J].
林小俊 ;
张猛 ;
暴筱 ;
李军 ;
吴玺宏 .
计算机工程, 2010, 36 (21) :4-6
[10]  
热点新闻间关系的研究.[D].程佳.上海交通大学.2011, 07