一种修正的向量空间模型在信息检索中的应用

被引:6
作者
马晖男
吴江宁
潘东华
机构
[1] 大连理工大学系统工程研究所
关键词
文本信息检索; 向量空间模型; 同义词词典; 查询扩展;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
为了提高文本信息检索系统检索性能,针对信息检索系统中普遍使用的向量空间模型(VSM)所固有的缺陷,提出一种新的修正的向量空间模型(MVSM).该模型重新定义了查询索引项的内容,将修饰词与中心词组成的合成短语引入到查询语句及传统的向量空间检索模型的信息表示中,并重新计算作为特征索引项的合成短语的权重值.在此基础上,又对查询索引项使用了基于同义词词典的查询扩展策略.实验结果表明:用合成短语作为查询索引项进行检索,使检索能够在相对精确的范围内进行,提高检索查准率;对查询进行同义扩展,能够使更多的语义相关的文本被检索出来,提高检索查全率.因此,在信息检索系统中应用修正的向量空间模型能够较好地改善检索性能.
引用
收藏
页码:666 / 669
页数:4
相关论文
共 4 条
[1]   自然语言处理中的语言模型及其比较研究 [J].
张仰森 ;
徐波 ;
曹元大 .
广西师范大学学报(自然科学版), 2003, (01) :16-24
[2]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[3]   Query expansion using heterogeneous thesauri [J].
Mandala, R ;
Tokunaga, T ;
Tanaka, H .
INFORMATION PROCESSING & MANAGEMENT, 2000, 36 (03) :361-378
[4]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)