随着Internet的高速发展,网上的信息越来越多,如何在海量的信息中快速准确的找到所需要的信息成为目前的一个研究热点。新一代搜索引擎—问答系统于互联网丰富,开放的信息资源中应运而生,实现更快速,更智能,更准确的获取用户所需的信息。问答系统(Question Answering,简称QA)即是能利用信息抽取,信息检索,自然语言处理等相关技术,用准确、简洁的答案回答用户用自然语言提出的问题。它主要由三个部分组成:问题理解,信息检索,答案抽取。如何在问题理解阶段充分理解用户的提问意图,如何在信息检索模块中把相关的文档找出来,如何在答案抽取模块中准确地把答案从相关文档中抽取出来,这三个问题是问答技术的核心问题。
本文的研究内容是问答系统的答案抽取部分。利用形式概念分析对以下两个部分做相应的研究:从常问问答集中抽取答案;从Web中抽取答案。本文采用基于Web和语料相结合的多策略方法。针对问答系统的结构复杂性,提出使用FCA(形式概念分析)来抽取答案。对于不同类型的问题,使用不同的抽取模式。利用概念匹配完成答案抽取,特别地,对于定义型问题,提出了协作推荐的方法。
本文首先使用了FCA来处理问答系统的答案抽取。在抽取处理中,首先在FAQs中寻找问题,如果该问题相应的答案不能满足用户的需要,再通过搜索引擎从网上获取相关的文档,从而使用返回的最相关的前n个文档建立概念格。最后,利用概念匹配的在格中抽取答案。对于不同的问题,本文使用了不同的抽取策略。
为了提高问答系统的精确度,本文提出了一个新的结合形式概念分析的概念化聚类用户日志的方法。由于日志信息是每天变化的,本文改进聚类算法获得更好的性能。首先使用改进的基于DBSCAN聚类算法聚类用户的日志。其次,这些聚类被用来构建形式背景,从而试图根据问题/查询词的内容和文档的点击信息来处理相似性问题。这里,主要利用聚类来建立更符合用户需求的概念格。最后,本文提出使用导航技术从FAQs中抽取答案。
在信息获取方面,本文介绍了一种新的基于FCA的个性化的元搜索引擎,MySearch。它获取用户的信息,通过重排结果,提供一个实时的响应。重排是通过使用用户的使用日志和源搜索引擎返回的结果共同组建的概念格实现的。最后,改进的重排通过MySearch返回给用户。
对于定义型的问题,本文利用基于形式概念分析的协作推荐来回答定义型的问题。在协作推荐中,本文应用文档和问题之间的关系作推荐。FCA组建文档和查询为概念,通过概念格来排序。
最后,本文介绍了基于概念匹配的答案抽取,概念聚类日志与FAQs评估,基于元搜索引擎信息获取,利用协作推荐回答定义型问题等四个核心模块的实验方法,步骤,结果及其评价。