中文问答系统中信息检索模型的研究

被引:0
作者
刘春泳
机构
[1] 重庆大学
关键词
问答系统; 信息检索; 文档质量; 语言模型; 最大熵;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。本文正是对中文问答技术研究的一个探索。 基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。信息检索模块是自动问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。 本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利用翻译模型把问题质量成功的集成到检索模型中。 最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。
引用
收藏
页数:51
共 9 条
[1]
问答系统:核心技术、发展趋势 [J].
王树西 .
计算机工程与应用, 2005, (18) :1-3
[2]
问答式检索技术及评测研究综述 [J].
吴友政 ;
赵军 ;
段湘煜 ;
徐波 .
中文信息学报, 2005, (03) :1-13
[3]
统计机器翻译综述 [J].
刘群 .
中文信息学报, 2003, (04) :1-12
[4]
汉语语料的切分标注加工系统 [J].
徐菁 ;
张辉 ;
陆汝占 .
计算机工程, 2003, (09) :66-68+165
[5]
搜索引擎的未来 [J].
傅蓉 .
中国信息导报, 2002, (04) :53-54
[6]
第二代搜索引擎模式探析 [J].
蔡栋 .
情报理论与实践, 2001, (03) :223-225
[7]
Knowledge engineering: Principles and methods.[J].Rudi Studer;V.Richard Benjamins;Dieter Fensel.Data & Knowledge Engineering.1998, 1
[8]
关于语言信息处理技术的展望..俞士汶;.计算机世界.1997, 01
[9]
Learning Surfa-ce Text Patterns for aQuestion Answe-ring System..D.Ravichandran;E.Hovy;.Proceedings of the ACLC.2002,