基于潜在语义分析的中文概念检索研究

被引:0
作者
刘云峰
机构
[1] 华中科技大学
关键词
潜在语义分析; 信息检索; 权重计算; 潜在语义空间维度特性; 快速检索; 语义布尔检索;
D O I
暂无
年度学位
2005
学位类型
博士
导师
摘要
互联网上绝大多数的信息是以文本的形式保存的,互联网上文本信息的爆炸式增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到相关信息。由于自然语言中多词同义、一词多义等不确定性因素存在,相同概念可以有多种不同的表述方式,被称为“知识的非常态”。传统的基于关键词字符匹配的信息检索中,参与匹配的只有外在的表现形式,而非它们所表达的全部概念,用户很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。把信息检索从关键词匹配的层面提高到概念(语义)的层面,从概念意义上来认知和处理检索用户的请求成为当前信息检索技术的研究热点。 潜在语义分析(LSA)是一种自然语言统计模型,被认为是一种获取、归纳和表述知识的方法。基于LSA 的检索模型与其它基于概念词典或概念网络的检索模型相比,具有可计算性强、需要人的参与少等优点。LSA 通过截断的奇异值分解建立潜在语义空间,潜在语义空间中词语和文档被投影在代表潜概念的维度上,进而可以提取词语间的语义关系,呈现出自然语言中的语义结构。当前LSA 尚存在一些理论基础有待扩充和进一步的解释,以中文LSA 作为研究的主题,以中文概念检索作为研究背景,对相关的一些难点问题,比如权重计算、潜在语义空间维度特性等进行系统地研究。 权重计算是LSA 中的重要优化过程,传统的LSA 权重定义方法继承于向量空间模型(VSM),而忽视了LSA 与VSM 的本质差别。定义词语全局权重后生成的潜在语义空间的维度突出了权重较大的词语间的语义关系。文档语义是由词语构成的,而词语要放到文档当中去理解。为了突出那些与重要词语间的互信息量较大的文档对建立词语间语义关系的作用,提出文档全局权重的定义作为LSA 权重计算的修正扩展。通过实验检验各种词语全局权重和加入文档全局权重后的检索效果,结果表明熵权重定义优于其它词语全局权重,加入文档全局权重后,能够在更少的维度上获得更高的查准率。 潜在语义空间中的维度代表着“潜概念”,由于没有显式的概念与之对应,人们一直不能深入理解潜在语义空间中的维度,LSA 的应用和发展受到限制。随潜在语义空间被剔除维度的增多,词语间相关度发生有规律的变化。认为文档(词语)间“泛”意义上的相关性主要体现在对应大奇异值的维度上,同时“局部”意义上的相关性主要体现在对应小奇异值的维度上。进而推测潜在语义空间维度和概念粒度之间存在某种近似的、隐含的对应关系。采用多层次文档聚类来验证这一结论,发
引用
收藏
页数:152
共 41 条
[1]
Semantic computation in a Chinese question-answering system [J].
Li, SJ ;
Zhang, J ;
Huang, X ;
Bai, S ;
Liu, Q .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2002, 17 (06) :933-939
[2]
不确定性人工智能 [J].
李德毅 ;
刘常昱 ;
杜鹢 ;
韩旭 .
软件学报, 2004, (11) :1583-1594
[3]
数据场在信息表征中的应用 [J].
戴晓军 ;
刘常昱 ;
韩旭 ;
李德毅 .
复旦学报(自然科学版), 2004, (05) :933-937
[4]
基于潜在语义分析的中文文本层次分类技术 [J].
王怡 ;
盖杰 ;
武港山 ;
王继成 .
计算机应用研究, 2004, (08) :151-154+165
[5]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[6]
知识管理中的联想检索 [J].
周明建 ;
高济 .
计算机应用, 2004, (07) :25-27
[7]
基于Rough集潜在语义索引的Web文档分类 [J].
何明 ;
冯博琴 ;
傅向华 .
计算机工程, 2004, (13) :3-5
[8]
一种基于潜在语义分析的查询扩展算法 [J].
顾榕 ;
王小平 ;
曹立明 ;
不详 .
计算机工程与应用 , 2004, (18) :23-25+63
[9]
基于潜在语义分析的BBS文档Bayes鉴别器 [J].
刘昌钰 ;
唐常杰 ;
于中华 ;
杜永萍 ;
郭颖 .
计算机学报, 2004, (04) :566-572
[10]
潜在语义分析理论及其应用 [J].
盖杰 ;
王怡 ;
武港山 .
计算机应用研究, 2004, (03) :9-12+20