一种改善的基于语言模型的中文检索系统研究

被引:3
作者
张俊林
曲为民
孙乐
孙玉芳
机构
[1] 中科院软件所系统软件与中文信息中心
[2] 中科院软件所系统软件与中文信息中心 北京
[3] 北京
关键词
计算机应用; 中文信息处理; 语言模型; 信息检索; 触发;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
最近几年提出的语言模型检索系统将语音识别领域的语言模型技术引入信息检索领域并改善了检索系统的性能 ,但是其隐含的词汇间相互独立的假设并不符合实际情况。尽管统计翻译模型考虑了词汇间的同义词因素 ,但是由于它没有考虑词汇上下文信息 ,所以对于解决多义词词义的区分并无帮助。我们提出了触发语言模型检索方法来改善这一状况 ,通过训练语料得到词汇在一定上下文中的相关比率 ,同时利用查询条件所含词汇计算触发词汇集合来区别查询条件词汇的具体含义并将相关参数引入文档语言模型形成触发语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能 ,与经典语言模型方法相比 ,触发语言模型方法的平均查准率提高了约 12 %,召回率提高了 10 8%。
引用
收藏
页码:23 / 29+43 +43
页数:8
相关论文
共 6 条
[1]  
A study of smoothing methods for language models applied to ad hoc information retrieval. C Zhai and J Lafferty. In: Proceedings of the 2001 ACM SIGIR Conference on Research and Development in Information Retrieval . 2001
[2]  
A hidden Markov model information retrieval system. D. H. Miller,T. Leek and R. Schwartz. In:Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval . 1999
[3]  
Biterm Language Models for Document Retrieval. M. Srikanth and R. Srihari. In: Proceedings of the 2002 ACM SIGIR Conference on Research and Development in Information Retrieval . 2002
[4]  
Indexing by latent semantic analysis. S. Deerwester,S. T. Dummais etc. Journal of the Society for Information Science . 1990
[5]  
Information retrieval as statistical translation. A. Berger and J. Lafferty. In: Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval . 1999
[6]  
Probabilistic latent semantic indexing. T. Hofmann. In: Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval . 1999