基于向量空间的信息检索模型的改进

被引:6
作者
原媛
彭建华
张汝云
机构
[1] 国家数字交换系统工程技术研究中心
关键词
向量空间模型; 基于概念的特征选择; 潜在语义索引; 知网; 奇异值分解;
D O I
10.16208/j.issn1000-7024.2008.23.010
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨。在仅用统计词频表示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型。实验验证了改进后的检索模型更能体现文本的内容,降低文本向量的维数,提高检索的准确率。
引用
收藏
页码:6012 / 6015
页数:4
相关论文
共 6 条
[1]
A semidiscrete matrix decomposition for latent semantic indexing information retrieval.[J].Tamara G. Kolda;Dianne P. O'Leary.ACM Transactions on Information Systems (TOIS).1998, 4
[2]
An introduction to latent semantic analysis [J].
Landauer, TK ;
Foltz, PW ;
Laham, D .
DISCOURSE PROCESSES, 1998, 25 (2-3) :259-284
[3]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[4]
基于概念扩充的文本过滤模型 [J].
尤文建 ;
李绍滋 ;
李堂秋 .
计算机工程与应用, 2003, (25) :74-77
[5]
隐含语义索引及其在中文文本处理中的应用研究 [J].
周水庚 ;
关佶红 ;
胡运发 .
小型微型计算机系统, 2001, (02) :239-243