基于潜在语义索引的中文文本检索研究

被引:0
作者
李媛媛
机构
[1] 西南交通大学
关键词
信息检索; 潜在语义索引; 权重计算; 文本-文本检索;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
互联网上绝大多数的信息是以文本的形式保存的,文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。在目前使用最多的基于关键词的字符匹配检索中,参与匹配的只有词的外在形式,而日常语言中多词同义、一词多义等不确定性因素的存在,使得用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。 而潜在语义索引(LSI—Latent Semantic Indexing)模型的出现有效地克服基于关键词检索无法处理多义词和同义词问题,它具有可计算性强、需要人参与少等优点。LSI通过截断的奇异值分解建立潜在语义空间,词汇和文本都被投影在该空间,进而可以提取词汇间深层次的语义关系,从而呈现出自然语言中的语义结构,进一步提高了检索性能。 本文围绕着如何利用LSI技术及其特点进一步提高中文文本检索的性能展开讨论。首先对LSI的相关关键技术以及数学基础进行了深度挖掘,对其在中文文本中的应用进行了举例和深入分析。其次对LSI的重要优化过程——权重计算进行了深入分析,提出了一种基于“非线性函数”和“位置因子”的新权重方案,并对其效果进行了对比验证。然后利用LSI能够方便计算出文本和文本相似度的特点,提出了“文本—文本检索”功能,弥补了由于检索语句较短和输入不准确等问题对检索查准率的影响,能够更好的帮助用户进行更加有效的检索。最后,开发了“中文潜在语义索引分析系统”作为实验平台,针对LSI的每个相对独立的环节专门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中作了验证。
引用
收藏
页数:73
共 41 条
[1]
潜在语义的Markov网络检索模型的研究 [D]. 
盛俊 .
江西师范大学,
2006
[2]
基于内容的教学资源搜索引擎研究 [D]. 
贺瑞芳 .
东北师范大学,
2005
[3]
基于.NET平台的智能答疑系统的研究与实现 [D]. 
赵慧 .
江苏大学,
2005
[4]
潜在语义分析在文本信息检索中的应用研究 [D]. 
卢健 .
华中科技大学,
2005
[5]
基于潜在语义索引的文本分类技术的研究 [D]. 
全德 .
东北大学,
2005
[6]
提高信息检索性能的有效机制与算法研究 [D]. 
杨哲 .
中国科学院研究生院(计算技术研究所),
2004
[7]
基于潜在语义分析的大学概况中文问答系统 [D]. 
张兰轩 .
大连理工大学,
2004
[8]
基于潜在语义索引模型的查询语义扩展模型 [D]. 
贺扬 .
西南交通大学,
2004
[9]
基于潜在语义分析的中文概念检索研究 [D]. 
刘云峰 .
华中科技大学,
2005
[10]
文本分类及其相关技术研究 [D]. 
李荣陆 .
复旦大学,
2005