随着互联网的普及,网上信息越来越丰富。但是,传统搜索引擎有许多不足之处,它返回的是许多相关的网页,而不是准确的答案。另外,它仅以关键词索引,没有触及到语义信息,因此很难真正理解用户的意图。而在问答(Question Answering,QA)系统中,用户可以使用自然语言进行提问,系统通过对问题分析和理解,直接返回给用户答案。因此问答系统更好地满足了用户的要求。可以说,QA系统是新一代的搜索引擎。近年来,本体(Ontology)受到人工智能领域的普遍关注,并得到了广泛应用。在受限领域QA中采用本体知识库,可以更好的表示知识之间的内在关系,知识的组织更加合理,减少冗余存储,也有利于进行基于语义的答案抽取。
本文在分析当前智能答疑系统的前提下,将本体技术引入智能答疑系统(Intelligent Question Answering System,IQAS),构建出一个针对银行个人业务的领域本体,将该本体作为语义理解的信息基础,这样就将在一定程度上改善现有QA中语义理解不足的问题。
本文的系统设计模型主要有两个核心模块和两个核心资源,核心模块分别为语法分析模块(Linguistic Analysis,LA)和语义相似度服务模块(Semantic Similarity Service,SSS)。首先LA将用户的问题经过分词、词性标注和问题模式匹配后得到查询语法块(Query Linguistic Block,QLB),并找出对应的问题模式,然后SSS再基于领域本体库和《知网》(Hownet)将查询语法块(QLB)映射成与领域本体库相关的本体语义块(Ontology Semantic Block,OSB)。核心资源分别为领域本体库和问题模式库。本文首先根据银行业务领域答疑系统的特点,构建出一个小型领域本体库。然后通过对常见问题的语法分析,建立了问题模式库。
对于QLB无法直接映射到OSB的情况,IQAS将计算原问题与一组候选问题的语义相似度,如果计算出的语义相似度高于阈值,则认为这两个问题是相似的,从而将候选问题的答案作为原问题的“替补”答案。针对语义相似度的计算,本文提出了一种基于上下文的计算本体内概念间语义相似度的算法,从概念的父代和子代两个角度进行计算。该算法充分考虑了概念所处的具体环境,充分利用了本体中概念的语义信息。
通过本文的研究表明,基于本体的智能答疑系统可以有效地利用领域本体的信息资源,在一定程度上解决了目前答疑系统对语义理解不足的问题,并且能够具有较高的准确率。