传统的文本信息检索方法的基本思路为,用户提出提问式,系统在数据库中进行提问式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是大量事实表明,这种通过词汇简单匹配检索出的结果并不是最优的,原因在于词汇间的同义性和单个词汇的歧义性。
本文分析了一种智能型信息检索方式—潜在语义分析法(Latent Semantic Analysis, LSA),它不同于传统的基于词汇匹配的检索方法,将计算机科学、数学、情报学的思想、技术和手段融合起来,对文本的潜在含义进行挖掘,根据词汇、文本、提问式三者在语义上的关联产生检索结果,达到优化检索结果的目的。基于LSA的信息检索方法以一个词汇与文档相联系的大规模矩阵开始,自动地建造了一个语义空间,使得使用者能够发现相关信息,即使提问式中没有任何词与之相关,只要在概念上与该文档的主体思想联系相一致,在语意空间中它们仍然紧靠在该文档附近。因此词汇和文档在语意空间的位置可以用来作为一种语意指引,提取信息的过程就是利用提问式中的关键词来识别空间的一个点,在这个点附近的文档按词汇向量与文档向量之间点乘的余弦值的大小排列,即按关键词与文档相关程度排列返回给使用者。
文章在简述潜在语义分析法产生的背景与研究概况、基本原理与思路的基础上,进一步对LSA 关键技术—奇异值分解进行推导,并对一个中文样本进行潜在语义分析测试和结果分析,最后,介绍了潜在语义分析法在其它方面的特殊应用。