潜在语义分析在文本信息检索中的应用研究

被引:0
作者
卢健
机构
[1] 华中科技大学
关键词
潜在语义分析; 奇异值分解; 检索; 语义; 信息;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
传统的文本信息检索方法的基本思路为,用户提出提问式,系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是大量事实表明,这种通过词汇简单匹配检索出的结果并不是最优的,原因在于词汇间的同义性和单个词汇的歧义性。 本文分析了一种智能型信息检索方式—潜在语义分析法(Latent Semantic Analysis, LSA),它不同于传统的基于词汇匹配的检索方法,将计算机科学、数学、情报学的思想、技术和手段融合起来,对文本的潜在含义进行挖掘,根据词汇、文本、提问式三者在语义上的关联产生检索结果,达到优化检索结果的目的。基于LSA的信息检索方法以一个词汇与文档相联系的大规模矩阵开始,自动地建造了一个语义空间,使得使用者能够发现相关信息,即使提问式中没有任何词与之相关,只要在概念上与该文档的主体思想联系相一致,在语意空间中它们仍然紧靠在该文档附近。因此词汇和文档在语意空间的位置可以用来作为一种语意指引,提取信息的过程就是利用提问式中的关键词来识别空间的一个点,在这个点附近的文档按词汇向量与文档向量之间点乘的余弦值的大小排列,即按关键词与文档相关程度排列返回给使用者。 文章在简述潜在语义分析法产生的背景与研究概况、基本原理与思路的基础上,进一步对LSA 关键技术—奇异值分解进行推导,并对一个中文样本进行潜在语义分析测试和结果分析,最后,介绍了潜在语义分析法在其它方面的特殊应用。
引用
收藏
页数:57
共 21 条
[1]
基于潜在语义分析的中文文本层次分类技术 [J].
王怡 ;
盖杰 ;
武港山 ;
王继成 .
计算机应用研究, 2004, (08) :151-154+165
[2]
潜在语义分析理论及其应用 [J].
盖杰 ;
王怡 ;
武港山 .
计算机应用研究, 2004, (03) :9-12+20
[3]
基于潜在语义索引的文本结构分析方法的研究 [J].
刘军万 ;
刘飞飞 ;
不详 .
情报杂志 , 2004, (01) :56-58
[4]
面向Web的文本挖掘技术研究 [J].
徐妙君 ;
顾沈明 .
控制工程, 2003, (S1) :44-46+50
[5]
应用潜在语意索引提取信息 [J].
杨守捷 ;
胡祥恩 .
天津师范大学学报(自然科学版), 2002, (01) :48-52
[6]
基于潜在语义索引的文本摘要方法 [J].
林鸿飞 ;
高仁璟 .
大连理工大学学报, 2001, (06) :744-748
[7]
隐含语义检索及其应用 [J].
陈越 ;
郭力 .
现代图书情报技术, 2001, (06) :27-29
[8]
基于潜语义标引的自然语言检索 [J].
陶跃华 ;
孙茂松 .
现代图书情报技术, 2001, (05) :40-41
[9]
基于示例的文本标题分类机制 [J].
林鸿飞 .
计算机研究与发展, 2001, (09) :1132-1136
[10]
PCCS部分聚类分类:一种快速的Web文档聚类方法 [J].
王爱华 ;
张铭 ;
杨冬青 ;
唐世渭 ;
不详 .
计算机研究与发展 , 2001, (04) :415-421