问答系统中的文本信息抽取研究与应用

被引:0
作者
李欢
机构
[1] 中国科学技术大学
关键词
互联网; 问答系统; 信息抽取; 依存关系树; 知识库; 基于案例的推理;
D O I
暂无
年度学位
2009
学位类型
博士
摘要
近年来,互联网的迅速发展,使得人们能够在这个平台上方便地保存数据、交流信息以及共享知识。但是,互联网中海量的数据给用户快速准确地获得这些所需的知识带来了困难。针对这样的需求,基于Web的信息检索和信息抽取逐渐成为了重要的研究课题。当搜索引擎的不足开始凸现,如何将丰富的资源合理地利用,使机器理解其中信息,成为网络时代机器智能的一大热门研究课题。在这样的背景下,建立在信息检索与信息抽取技术之上的问答技术领域蓬勃发展起来。问答系统以自然语言的问题取代关键字作为输入,允许用户准确表达自己的需求;将准确的答案短句返回给用户,节约了用户搜索、定位答案的时间。 问答系统按照获取答案的方式可以分为自动问答系统和交互式问答系统两种;根据系统所处理的问题的范围可以分为开放领域问答系统和特定领域问答系统两种。前者不限输入的问题范围,试图为任意主题内的任意问题寻找答案。后者只接受针对某一个特定领域的问题,往往有此领域内的领域知识作为指导。本文针对信息抽取在问答系统中的应用,围绕这两种不同的问答系统展开了研究。对开放领域内的问答,研究了如何加强对问题的语义分析能力、如何更有效地利用历史数据库以提高机器智能;对特定领域内的问答,研究了如何更好利用经验解决新的问题等,以提高问答系统的答案正确率。本文的主要研究内容和创新之处如下: 第一,对问题语义的准确分析是把握用户需求的关键。本文对文本中语义约束信息的识别展开了研究,期望对有信号词指示的语义约束部分,给出正确的检测,并对由同一信号词指示的多种语义约束,给出正确的区分。为此提出了一种运用依存关系树比对来检测文本中多语义约束的方法。对每一类语义约束,搜集信号词以及相应的例句组成案例库,并定义部分依存关系树(PDT)核函数来计算两个对象之间的相似度。在实际计算过程中,运用Apriori算法,来降低计算该核函数的复杂度。 第二,不管是自动问答系统还是交互式问答系统,都在日积月累的用户使用中积累了大量的问答数据。为了有效地重用这些历史数据,本文开展了从历史问答对中抽取知识的研究,期望将短文本答案的问答对蕴含的知识自动转化为结构化的知识表达,不断积累;并使得系统可以凭借积累的知识库进行查询检索,并返回结果。这样一是可以节约建造知识库的人力,二是可以对新问题给出一个参考答案,节约交互式系统中用户得到答案的时间。为此本文描述了从问答对到知识库转化的工作流程,将语义模板匹配和上述语义约束的识别的工作相结合,来获取对问题句中知识的提取,并运用以语义网络为基础的结构来表达互相联系互相约束的知识簇。实现了一个用户交互式的原型系统,演示了上述知识库积累和使用的过程。 第三,在特定领域内的自动问答中,领域知识起到非常关键的作用。在一些领域中,经验是解答新问题的最好的依据。因此,本文以植物生长环境的推荐任务为应用场景,对用基于案例推理的方法来重用该领域内的经验进行了研究。提出了一种学习获取修正规则的方法。运用资源空间模型(RSM)和语义链接网络(SLN)来表达和构建案例库,将案例之间相互联系起来。以案例比对的方法分析案例库,以得到修正规则;案例之间的联系和基本领域知识,给相似度计算提供了指导;运用距离测量值和置信度值来提高修正规则的生成和运用的精度;设计了一个进化模块,依据解决新问题的经验来更新修正规则集,提供了系统的学习能力。
引用
收藏
页数:111
共 38 条
[1]
基于浅层语义树核的阅读理解答案句抽取 [J].
张志昌 ;
张宇 ;
刘挺 ;
李生 .
中文信息学报, 2008, (01) :80-86
[2]
Automatic Question Answering from Web Documents [J].
LI XinHU DaweiLI HuanHAO TianyongCHEN EnhongLIU Wenyin Department of Computer Science and TechnologyUniversity of Science and Technology of ChinaHefei AnhuiChina Department of Computer ScienceCity University of Hong KongHong KongChina Joint Research Laboratory of ExcellenceCityUUSTC Advanced Research InstituteSuzhou JiangsuChina .
WuhanUniversityJournalofNaturalSciences, 2007, (05) :875-880
[3]
韦林分布及其参数估计方法的运用 [J].
康平立 ;
许雯燕 ;
江丽萍 .
统计与决策, 2007, (17) :138-139
[4]
段落检索及其相关算法研究 [J].
付鸿鹄 ;
张晓林 .
现代图书情报技术, 2007, (02) :39-43
[5]
信息抽取系统的研究现状 [J].
邓尚民 ;
孙玉伟 .
现代图书情报技术, 2006, (03) :55-58+81
[6]
问答式检索技术及评测研究综述 [J].
吴友政 ;
赵军 ;
段湘煜 ;
徐波 .
中文信息学报, 2005, (03) :1-13
[7]
科学家合作网络的聚类分析 [J].
张鹏 ;
李梦辉 ;
吴金闪 ;
狄增如 ;
樊瑛 .
复杂系统与复杂性科学, 2005, (02) :30-34
[8]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66
[9]
自动问答综述 [J].
郑实福 ;
刘挺 ;
秦兵 ;
李生 .
中文信息学报, 2002, (06) :46-52
[10]
WWW信息检索综述 [J].
赵一唯 ;
王和珍 ;
李振东 .
南京大学学报(自然科学版), 2001, (02) :192-198