基于潜在语义分析的文档检索设计方法

被引:4
作者
张世博
刘博爱
柳朝阳
张宝全
机构
[1] 北京石油化工学院计算机系
关键词
潜在语义分析; 奇异值分解; 信息检索; 相似度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文档检索系统围绕如何基于语义层面进行检索来展开研究。基于关键词匹配的检索系统不能处理多词一义的情况,针对此问题设计了基于潜在语义分析的文档检索系统。首先改进了文档-词矩阵单元值的计算过程,调整了传统高频词与低频词在权重上的线性关系,利用Sigmiod函数对权重做平滑处理,使其更符合文档中词的权重;其次利用潜在语义分析结合多维尺度分析算法,优化计算文档在语义间的距离。实验结果显示,能有效在语义上聚类文档,完成查询语句与文档集之间的相似度检索计算。
引用
收藏
页码:37 / 42
页数:6
相关论文
共 7 条
[1]   基于潜在语义分析的个性化查询扩展模型 [J].
王卫国 ;
徐炜民 .
计算机工程, 2010, 36 (21) :43-45
[2]   基于潜在语义索引的文本特征词权重计算方法 [J].
李媛媛 ;
马永强 .
计算机应用, 2008, (06) :1460-1462+1466
[3]   LSA和MD5算法在垃圾邮件过滤系统的应用研究 [J].
张秋余 ;
孙晶涛 ;
闫晓文 ;
黄文汉 .
电子科技大学学报, 2007, (06) :1223-1227
[4]   潜在语义标引(LSI)研究综述 [J].
孙海霞 ;
成颖 .
现代图书情报技术, 2007, (09) :49-53
[5]   LSI和kNN相结合的文本分类模型研究 [J].
王天江 ;
叶卫国 ;
卢正鼎 ;
李永平 .
华中科技大学学报(自然科学版), 2004, (04) :59-60+86
[6]   LSI潜在语义信息检索模型 [J].
何伟 .
数学的实践与认识, 2003, (09) :1-10
[7]   Using linear algebra for intelligent information retrieval [J].
Berry, MW ;
Dumais, ST ;
OBrien, GW .
SIAM REVIEW, 1995, 37 (04) :573-595