基于潜在语义分析的大学概况中文问答系统

被引:0
作者
张兰轩
机构
[1] 大连理工大学
关键词
问答系统:潜在语义分析; 信息检索; 文本段检索; 自然语言处理;
D O I
暂无
年度学位
2004
学位类型
硕士
导师
摘要
问答系统是指能够根据用户输入的自然语言描述的问题从大量文本集中找出确切答案的计算机程序。 目前的检索系统只能定位出相关文本,却把具体信息检索的任务留给了用户自己,人们迫切需要一个能定位出用户感兴趣的信息而不是整篇文本的检索系统。基于以上原因,我们设计了一个基于潜在语义分析技术的大学概况中文问答系统QASYS,由于中国大学有上千所,每所大学的网页又是包罗万象,想查出确切信息要花费很长的时间。本系统将使这种查询变得相对简单,这对于想了解各院校情况的高考生们会提供很大的帮助。 本系统引入了潜在语义分析技术进行信息检索,避免了传统信息检索系统的同义词和多义词问题,提高了检索精度。另外,自然语言处理技术在问答系统中也起着至关重要的作用,包括特征项抽取、词频统计、语法和语义分析等。 整个系统划分为三个模块:文本库预处理模块、问题分析模块和答案抽取模块。 文本库预处理模块包括网页抓取、HTML格式滤除、分词、标注、词频统计、特征项提取等工作,并根据tf*idf变形公式计算每一个项的权重,生成项/文本矩阵;最后,对项/文本矩阵进行奇异值分解生成潜在语义空间。 问题分析模块同样要对用户提出的问题进行分词、标注、词频统计以及特征项提取,并根据词频把问题表示成易于处理的向量形式;这一模块中最重要的任务是进行答案类型分析,针对于不同类型的问题制定相应的答案抽取规则,以便在答案抽取阶段应用这些规则来抽取问题的答案。 在答案抽取模块,包括相关文本检索、相关文本段检索以及答案限长处理三部分内容。本文中提出了不同的文本和文本段的权重计算函数,将潜在语义分析技术与关键字匹配结合起来,即考虑了查询的语义信息,又充分认识到焦点对于返回答案的不容忽视的限制性作用,实验表明,将二者结合起来的检索方法比单纯采用其中一种的结果要理想得多;最后验证返回文本段的长度,将答案限制在50字之内返回给用户。
引用
收藏
页数:58
共 2 条
[1]
Using latent semantic indexing for multilanguage information retrieval [J].
Berry, MW ;
Young, PG .
COMPUTERS AND THE HUMANITIES, 1995, 29 (06) :413-429
[2]
语言计算与基于内容的文本处理.[M].孙茂松;陈群秀主编;.清华大学出版社.2003,