问答对自动获取的研究

被引:0
作者
孟祥燕
机构
[1] 昆明理工大学
关键词
问答系统; 受限域; 问答对获取; 领域问答对过滤; 相关问答对过滤;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
问答对的规模和质量是影响基于常问问题集问答系统性能的重要因素,目前所使用的问答对库一般是人工构建的,往往需要耗费大量的时间和人力物力。本文围绕问答对库构建过程中的网页问答对自动获取,领域问答对过滤及相关问答对过滤等技术进行了一系列的研究和探讨,主要取得了以下几个方面的成果: (1)提出了一种基于DOM的网页问答对自动获取方法。该方法将HTML页面解析成DOM树形式,抽取树的文本节点作为问答对的候选,根据DOM树的节点和结构信息提取分类特征,采用改进贝叶斯分类算法,构造分类模型,实现了从网页中自动获取问答对的方法。问答对自动获取实验结果表明,该方法具有较好的效果。 (2)提出了一种结合句法结构关系和领域特征的领域问答对过滤方法。研究领域知识库构建方法,结合云南旅游领域特点,构建了云南旅游领域知识库。在句法结构分析的基础上,选取句子主干与领域词汇作为分类特征,采用改进贝叶斯分类器进行领域问答对过滤。实验结果表明,结合句法结构关系和领域特征进行领域问答对过滤具有很好的效果。 (3)针对问答对特点,提出了一种面向词组合与句子的相关问答对过滤方法。该方法通过计算词组合或句子和问答对的相似度来判断两者是否相关。以“知网”为基础,计算词语语义相似度。在句法结构分析的基础上,提取问答对中的有效搭配对,并计算有效搭配对之间的相似度,从而实现了融合词法、句法和语义的问答对相似度计算。而向词组合与句子的相关问答对过滤实验结果表明,该方法具有较好的效果。 (4)利用上述研究成果,搭建了网页问答对自动获取原型系统,云南旅游领域问答对过滤原型系统,面向词组合与句子的相关问答对过滤原型系统。
引用
收藏
页数:63
共 36 条
[1]
汉语句子相似度计算方法及其应用的研究 [D]. 
周舫 .
河南大学,
2005
[2]
一种改进的知网系统词语相似度计算方法.[A].乔林;黄维通;孟威;.全国第八届计算语言学联合学术会议(JSCL-2005).2005,
[3]
句子相似度计算在FAQ中的应用.[A].王洋;秦兵;郑实福;.第一届学生计算语言学研讨会.2002,
[4]
A reliable FAQ retrieval system using a query log classification technique based on latent semantic analysis.[J].Harksoo Kim;Hyunjung Lee;Jungyun Seo.Information Processing and Management.2006, 2
[5]
Faster algorithm of string comparison [J].
Yang, QX ;
Yuan, SS ;
Zhao, L ;
Chun, L ;
Peng, S .
PATTERN ANALYSIS AND APPLICATIONS, 2003, 6 (02) :122-133
[6]
基于句法分析和答案分类的中文问答系统 [J].
孙昂 ;
江铭虎 ;
贺一帆 ;
陈林 ;
袁保宗 .
电子学报, 2008, (05) :833-839
[7]
一种基于向量夹角的k近邻多标记文本分类算法 [J].
广凯 ;
潘金贵 .
计算机科学, 2008, (04) :205-206+297
[8]
汉语句子相似度计算方法比对之研究 [J].
赵巾帼 ;
徐德智 ;
罗庆云 .
福建电脑, 2007, (10) :51+68
[9]
基于HowNet语义相似度的FAQ研究 [J].
贾可亮 ;
樊孝忠 ;
张禹 .
计算机应用, 2007, (09) :2256-2257
[10]
汉语词语语义相似度计算研究 [J].
夏天 .
计算机工程, 2007, (06) :191-194