面向问答系统的问题分类与答案抽取研究

被引:0
作者
张傲
机构
[1] 东北大学
关键词
问答系统; 问题分类; 特征选取; 答案抽取; 实体识别;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着人工智能、信息检索以及自然语言处理等技术地发展,问答系统的研究也取得了长足地进步。特别是TREC等会议举办的问答系统评测任务又进一步推动了问答系统的发展。相比英文而言,中文领域并没有流行的问答系统评测,相关的数据集也十分匮乏,导致目前中文问答系统的研究相对落后。本文使用基于在线搜索引擎的方式来实现答案检索,主要研究工作为面向中文问答系统的问题分析与答案抽取。 在问题分析部分,本文首先提出了一种基于词组合及问题类别的停用词选取方法,在选取停用词时先从由n个词组合成的短语中提取,并且在提取过程中考虑问题类别情况,通过不断减小n的值来完成迭代。在本文的数据集上,这一方法取得了较好的效果。 接着,针对本文的问题,基于TF-IDF的思想提出了一种问句分类特征选取方法TFC-ICF。该方法综合考虑了一个词语标识某个类别的能力及其在各个类别中的分布情况,从而可以选取到质量更高的分类特征。本文使用基于SVM模型的分类器来进行自动分类,使用TFC-ICF方法选取的特征词在问题分类上的准确率可以达到80.45%。为了进一步提高问题分类的性能,本文以TFC-ICF方法为基准,提出了人工特征选取方法、基于关键词扩展的特征选取和选取语法信息的特征选取,并且在后两种方法中实验了多种不同的特征使用方法。通过与TFC-ICF方法结合使用,上述三种方法在问题分类上的最高准确率分别可以达到86.01%、85.14%和82.13%。 在答案抽取部分,本文首先讨论了如何使用基于向量空间模型的句子相似度计算方法选取候选答案句子,进而使用实体识别的方法从候选答案句子中提取与问句类别相关的实体,最后,本文提出了一种基于句子相似度和实体信息的答案抽取方法,在NTCIR5的CLQA问答测试集上取得了较好的实验结果。 本文对问题分类和答案抽取做了重点研究,并得到了一些成果,但其中也存在一定的问题,比如,问题数据集质量较差、实体识别的效果还不能完全令人满意、最终答案抽取的效果也不够理想。
引用
收藏
页数:73
共 11 条
[1]
基于主动学习的中文问题分类数据集构建 [J].
邱锡鹏 ;
缪有栋 ;
黄萱菁 .
哈尔滨工业大学学报, 2012, 44 (05) :125-128
[2]
自然语言处理的历史与现状 [J].
冯志伟 .
中国外语, 2008, (01) :14-22
[3]
中文分词十年回顾 [J].
黄昌宁 ;
赵海 .
中文信息学报, 2007, (03) :8-19
[4]
基于句法结构分析的中文问题分类 [J].
文勖 ;
张宇 ;
刘挺 ;
马金山 .
中文信息学报, 2006, (02) :33-39
[5]
中文停用词表的自动选取 [J].
顾益军 ;
樊孝忠 ;
王建华 ;
汪涛 ;
黄维金 .
北京理工大学学报, 2005, (04) :337-340
[6]
An improved TF-IDF approach for text classification [J].
Zhang Yun-tao ;
Gong Ling ;
Wang Yong-cheng .
Journal of Zhejiang University-SCIENCE A, 2005, 6 (1) :49-55
[7]
同义词词林.[M].梅家驹;竺一鸣;高蕴琦;殷鸿翔 编.上海辞书出版社.1983,
[8]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[9]
Building Watson: An Overview of the DeepQA Project [J].
Ferrucci, David ;
Brown, Eric ;
Chu-Carroll, Jennifer ;
Fan, James ;
Gondek, David ;
Kalyanpur, Aditya A. ;
Lally, Adam ;
Murdock, J. William ;
Nyberg, Eric ;
Prager, John ;
Schlaefer, Nico ;
Welty, Chris .
AI MAGAZINE, 2010, 31 (03) :59-79
[10]
On the limited memory BFGS method for large scale optimization.[J].Dong C. Liu;Jorge Nocedal.Mathematical Programming.1989, 1-3