随着互联网的快速发展,为人们提供了丰富的信息资源。利用搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎存在一些缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答系统正是为了满足人们的这种愿望而发展起来的,它通过采用自然语言处理技术,用简洁准确的语言回答用户用自然语言提出的问题。
自动问答系统的研究受到国内外很多科研机构的重视,已经开发出相对成熟的英文自动问答系统,但是参与中文自动问答系统研究的科研机构还不是很多,而且还没有出现成熟的中文自动问答系统。本文对中文自动问答系统的研究进行了一些探索,希望能够促进中文自动问答技术的发展。
本文中提出的中文自动问答系统主要包括三个组成部分:问题理解、信息检索和答案抽取。首先利用问题理解对用户提交的问题进行处理,掌握用户的提问意图。问题理解包括:词法分析、问题分类、句法分析、关键词提取和扩展。信息检索则是利用问题理解中产生的检索关键词,首先从本地知识库检索相关的答案,或进一步利用多个搜索引擎从网络上获取相关的网页文档交给答案抽取模块进行处理。利用网络资源构建大规模的本地知识库。答案抽取模块对搜索引擎检索获取的网页文档进行处理,通过句子过滤、实体识别、句法分析等处理方法从文档中抽取出相关的句子或短语作为问题的答案返回给用户。
本文还对实现的中文自动问答系统进行了测试,对测试结果进行了分析。最后对论文工作进行了总结,指出了本文中实现的问答系统还需要改进的地方,为中文自动问答系统的进一步研究提供了参考。