隐含语义索引及其在中文文本处理中的应用研究

被引:40
作者
周水庚
关佶红
胡运发
机构
[1] 复旦大学计算机系!上海
[2] 武汉大学计算机学院!武汉
关键词
信息检索; 隐含语义索引; 奇异值分解; 中文文本处理;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得文档之间的语义关系更为明晰 .实验和理论结果证实了隐含语义索引能够取得更好的检索效果 .本文论述了隐含语义索引的理论基础 ,研究了隐含语义索引在中文文本处理中的应用 ,包括中文文本检索、中文文本分类和中文文本聚类等 .
引用
收藏
页码:239 / 243
页数:5
相关论文
共 16 条
  • [1] Modern Information Retrieval. Baeza-Yates R,Ribeiro-Neto B. Addison-Wesley . 1999
  • [2] Latent Semantic Indexing:A Proba-bilistic Analysis.〔C〕. C. H. Papadimitriou,etal. Proceedings of PODS 98 . 1998
  • [3] Computation-al Methods for Intelligent Information Access.〔C〕. M.W.Berry,S.T.Dumais,T.A.L etsche. Proceedingsof Supercomputing 95 . 1995
  • [4] LSI meets TREC:A status report. S.T.Dumais. the1stText Retrieval Conference . 1993
  • [5] Improving the retrieval of information from externalsources Behavior Research Methods.〔J〕. S.Dumais. Instruments,& Com-puters . 1991
  • [6] Cross-language information retrieval using latent se-mantic indexing. P. Young. University of Tennessee,Knoxville,Tennessee . 1994
  • [7] Large latent semantic index-ing via a semi-discrete matrix Decomposition.〔R〕. T.G.Kolda,D.P.O Leary. Technical Re-port No. U MCP-CSD CS-TR-3713 . 1996
  • [8] Information management tools for updating anSVD-encoded indexing scheme. G. O Brien. Universityof Tennessee,Knoxville,Tennessee . 1994
  • [9] Information retrieval using a singular-val-ue-decomposition model of latentsemantic structure.〔C〕. G. W. Furnas,et al. Pro-ceedings of SIGIR 88 . 1988
  • [10] U sing latent semantic indexing for information filter-ing.〔C〕. P.Foltz. Proceedings of the ACM Conference on Office Infor-mation Systems (COIS) . 1990