基于word2vec和LSTM的句子相似度计算及其在水稻FAQ问答系统中的应用

被引:54
作者
梁敬东 [1 ]
崔丙剑 [1 ]
姜海燕 [1 ,2 ]
沈毅 [1 ]
谢元澄 [1 ]
机构
[1] 南京农业大学信息科学技术学院
[2] 南京农业大学国家信息农业工程技术中心
基金
国家重点研发计划;
关键词
水稻; 问答系统; 常问问题集; 词向量; 长短期记忆; 深度学习;
D O I
暂无
中图分类号
S511 [稻]; TP391.1 [文字信息处理];
学科分类号
090104 [作物信息科学与技术]; 120506 [数字人文];
摘要
[目的]水稻FAQ(frequently asked question,常问问题集)问答系统对农户在水稻种植过程中遇到的问题进行解答,问句相似度计算是其核心,用来匹配用户问题和FAQ中的问题。针对传统句子相似度算法准确率普遍较低的问题,本研究旨在用深度学习计算问句相似度,以提高系统回答的准确性。[方法]构建一个基于word2vec和LSTM(long-short term memory,长短期记忆)神经网络,包括输入层、嵌入层、LSTM层、全连接层和输出层的句子相似度模型。对水稻FAQ中的3 007个问题进行归类和组合得到32 072个问题对,并标注其相似性作为训练和测试数据。使用基于农业领域语料库训练得到的word2vec模型对训练数据向量化后作为输入,训练句子相似度模型。[结果]在测试集上对模型进行验证,并与基于How Net、基于词向量的余弦距离以及基于word2vec和卷积神经网络(convolutional neural network,CNN)的3种句子相似度算法进行对比。对句子相似度的计算结果进行抽样检查,该模型的计算结果更符合人的直观印象。从准确率和ROC(receiver operating characteristic curve)曲线进行分析,该模型也明显优于其他3种方法,准确率达到了93.1%。[结论]本研究构建的模型显著提升了句子相似度计算的准确率,基于该模型开发的水稻FAQ问答系统,能够准确匹配用户问题和水稻FAQ中的问题,帮助农户更好地解决水稻生产中遇到的问题。
引用
收藏
页码:946 / 953
页数:8
相关论文
共 19 条
[1]
中医药症状的中文分词与句子相似度研究 [D]. 
毛宇 .
浙江大学,
2017
[2]
Dropout: a simple way to prevent neural networks from overfitting..[J].Nitish Srivastava;Geoffrey E. Hinton;Alex Krizhevsky;Ilya Sutskever;Ruslan Salakhutdinov.Journal of Machine Learning Research.2014, 1
[3]
A Neural Probabilistic Language Model..[J].Yoshua Bengio;Réjean Ducharme;Pascal Vincent;Christian Janvin.Journal of Machine Learning Research.2003,
[4]
Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780
[5]
A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge [J].
Landauer, TK ;
Dumais, ST .
PSYCHOLOGICAL REVIEW, 1997, 104 (02) :211-240
[6]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[7]
基于多特征融合的句子相似度计算.[A].赵妍妍;秦兵;刘挺;张俐;苏中;.全国第八届计算语言学联合学术会议(JSCL-2005).2005,
[8]
基于多特征融合的句子相似度计算方法 [J].
黄姝婧 ;
张仰森 .
北京信息科技大学学报(自然科学版), 2017, 32 (05) :45-49+55
[9]
基于Word2vec的句子语义相似度计算研究 [J].
李晓 ;
解辉 ;
李立杰 .
计算机科学, 2017, 44 (09) :256-260
[10]
文本相似度计算方法研究综述 [J].
陈二静 ;
姜恩波 .
数据分析与知识发现, 2017, 1 (06) :1-11