基于公共词块及N-gram模型的问句相似度算法

被引:7
作者
黄贤英
谢晋
龙姝言
机构
[1] 重庆理工大学计算机科学与工程学院
关键词
问句相似度; N-gram模型; 一元模型; 公共词块;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
问句相似度算法是问答系统的核心问题,直接影响着问答系统的准确性。针对公共词块算法(CCS)对于中文文本的不适用性,提出一种改进的问句相似度算法(CNS)。该方法结合N-gram模型及公共词块来计算问句向量的相似度,其主要思路是把问句分解成一元模型和二元模型,然后再分析问句之间的公共词块并考虑其顺序结构。实验结果表明:新算法在Top-N条数据集的平均相似度和不同相似度阈值下的准确率均优于常用的问句相似度算法。
引用
收藏
页码:175 / 179+197 +197
页数:6
相关论文
共 5 条
[1]   一种基于公共词块的英文短文本相似度算法 [J].
黄贤英 ;
刘英涛 ;
饶勤菲 .
重庆理工大学学报(自然科学), 2015, 29 (08) :88-93
[2]   基于平均信息熵的中文问句关键词提取 [J].
丁菲菲 ;
杨思春 ;
刘仁金 .
皖西学院学报, 2014, 30 (05) :46-49
[3]   一种基于N-Gram改进的文本特征提取算法 [J].
于津凯 ;
王映雪 ;
陈怀楚 .
图书情报工作, 2004, (08) :48-50+43
[4]  
中文社区问答系统中问题检索技术研究.[D].李吉月.北京理工大学.2016, 08
[5]  
自动问答系统中问句相似度计算方法研究.[D].徐海洲.华东交通大学.2014, 02