基于逐点互信息的查询结构分析

被引:4
作者
朱亚东 [1 ,2 ]
张成 [1 ]
俞晓明 [1 ]
程学旗 [1 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院研究生院
关键词
查询结构分析; MapReduce; 在线查询树;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
Web搜索引擎中,对用户查询结构的有效分析,能更好地理解用户的查询意图,促进检索效果的提升。该文提出了一种简单高效的基于逐点互信息的查询结构分析方法,该方法包含了基于MapReduce的离线训练算法,以及一种自下向上的在线查询树构建算法。实验显示,该方法具有很高的切分速度,并能取得不错的可比较的切分效果。进一步的,该方法对检索性能的提升,也有明显的促进作用,在MAP,p@5,p@10评价指标上,都取得了不错的性能提升。
引用
收藏
页码:33 / 39
页数:7
相关论文
共 15 条
[1]  
Unsupervised Query Segmentation Using Generative Language Models and Wiki. Tan B,Peng F. Proc. of WWW’08 . 2008
[2]  
Exploring web scale language models for search query processing. Huang J,Gao J,Miao J.et al. Proceedings of WWW . 2010
[3]  
Investigation of partial query proximity in web search. J.Bai,Y.Chang,H.Cui,et al. Proceedings of17th International Conference on World Wide Web . 2008
[4]  
An exploration of proximity measures in information retrieval. T.Tao,C.Zhai. Proceedings of SIGIR’’ 07 .
[5]  
http://www.project-voldemort.com/ .
[6]   基于双字耦合度的中文分词交叉歧义处理方法 [J].
王思力 ;
王斌 .
中文信息学报, 2007, (05) :14-17+30
[7]  
http://labs.google.com/papers/mapreduce.html .
[8]  
Generating Query Substitutions. Rosie Jones,Benjamin Rey,OmidMadani. WWW2006 . 2006
[9]  
A Markov Random Field Model for Term Dependencies. Metzler, D.,Croft, W.B. Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR 2005) . 2005
[10]  
Learning Noun Phrase Query Segmentation. S.Bergsma,Q.I.Wang. Proceedings of the 2007 Joint Conference on Empirical methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL) . 2007