农业问答系统中问题分类和相似度计算的研究

被引:0
作者
高森
机构
[1] 中国科学技术大学
关键词
问答系统; 问题分类; 相似度计算; 词向量; LSI模型;
D O I
暂无
年度学位
2018
学位类型
硕士
导师
摘要
目前,互联网上已经积累了庞大的农业数据信息,如何把这些农业大数据信息进行有效的利用成为现在急需解决的问题。农业问答系统是一种可以主动将农业用户遇到的问题进行分析理解,然后在系统语料库中寻找相近的问题,最后返回农业用户需要的答案。与现有的在因特网上直接搜索信息的方式相比,问答系统更适合利用农业大数据帮助农民获得农作物生产方面的知识。论文主要针对互联网上农业社区网站的问答数据,对问答系统中问题分类和相似度计算进行了如下的一些研究:(1)在问题分类方面,论文主要分析了分类过程中现有的特征选择方法存在的一些弊端,以及其在面对不均衡数据时的缺陷,再结合农业领域问句的特点,提出了一种基于类间概率分布的互信息特征选择方法,通过计算每个词在各个类中的频率既可以解决类间数据分布不均衡的问题,还可以降低那些出现频次低的词的权重。论文提到三种类间概率分布,分别为方差、极差,最大值与次大值的差,通过设置对比实验选出三种类间词频分布中最合适的分布,然后将之与互信息结合作为新的特征选择方法。(2)在相似度计算方面,论文主要根据常用的一些算法存在的问题,提出了一种以word2vec-LSI模型为基础的相似度计算方法。该方法在相似度计算之前先将文本中的特征词进行聚类,并计算每个特征词类的中心词,然后利用计算出的中心词将原文本转换成词-问题矩阵,矩阵中的元素为对应位置的中心词的TF-IDF值,最后将问题中的词转换成向量并叠加求均值后与词-文档矩阵首尾相接作为新的文本表示。在构建好新的文本表示之后,使用LSI模型对矩阵进行降维和主题提取,然后进行相似度计算。实验结果表明,通过对问题分类中特征选择方法和相似度计算的改进,使得农业问答系统在问题分类和相似度计算方面的准确性都有所提高,这也证明了论文提出的方法的有效性。
引用
收藏
页数:62
共 46 条
[1]
基于词频信息的改进信息增益文本特征选择算法 [J].
石慧 ;
贾代平 ;
苗培 .
计算机应用, 2014, 34 (11) :3279-3282
[2]
基于改进卡方统计的微博特征提取方法 [J].
徐明 ;
高翔 ;
许志刚 ;
刘磊 .
计算机工程与应用, 2014, 50 (19) :113-117+142
[3]
文本分类中的特征降维方法研究 [J].
张玉芳 ;
万斌候 ;
熊忠阳 .
计算机应用研究, 2012, 29 (07) :2541-2543
[4]
特征选择方法综述 [J].
姚旭 ;
王晓丹 ;
张玉玺 ;
权文 .
控制与决策, 2012, 27 (02) :161-166+192
[5]
特征选择算法综述附视频 [J].
计智伟 ;
胡珉 ;
尹建新 .
电子设计工程, 2011, (09) :46-51
[6]
国内中文自动分词技术研究综述 [J].
奉国和 ;
郑伟 .
图书情报工作, 2011, (02) :41-45
[7]
文本分类中互信息特征选择方法的研究 [J].
范小丽 ;
刘晓霞 .
计算机工程与应用 , 2010, (34) :123-125
[8]
基于同义词词林的词语相似度计算方法 [J].
田久乐 ;
赵蔚 .
吉林大学学报(信息科学版), 2010, 28 (06) :602-608
[9]
优化的互信息特征选择方法 [J].
朱颢东 ;
陈宁 ;
李红婵 .
计算机工程与应用, 2010, 46 (26) :122-124
[10]
基于VSM的文本相似度计算的研究 [J].
郭庆琳 ;
李艳梅 ;
唐琦 .
计算机应用研究, 2008, (11) :3256-3258