基于机器学习的查询优化研究

被引:0
作者
王秉卿
机构
[1] 复旦大学
关键词
查询扩展; 查询优化; 机器学习; 相关反馈; 受限化聚类;
D O I
暂无
年度学位
2012
学位类型
博士
导师
摘要
揭示用户的检索需求是文本检索中重要的研究课题。当前有诸多问题函待解决,例如有些查询“词不达义”,致使相关文档因为和查询词不匹配所以无法被检索出来;有时,多个查询词之间需要“分清主次”,这样就需要系统给各个查询词赋予权重,以示区别;再比如“相关反馈”探讨如何利用直接或间接的反馈信息来优化查询。 本文以优化用户的查询为目标,以机器学习算法的研究为核心展开研究工作。针对上述的问题从三个方面展开研究,(1)基于监督学习的查询扩展方法;(2)基于线性分类器的查询词权重估计方法(3)基于受限化聚类的相关反馈。 首先,针对查询词和相关文档不匹配的问题,本文提出了基于监督学习的查询扩展方法,即训练有监督模型来挑选扩展词的方法。这种方法的优点在于综合了扩展词的各种特征,因而能更准确地识别出扩展词的好坏。由于用于扩展词挑选的训练数据难于获得,作者进而提出了利用检索结果评价集自动生成训练数据的方法,并对训练数据进行了细致的分析,从而指导模型的训练过程。该方法在多组标准评测数据上获得了良好的性能,提升幅度高于传统的查询扩展方法。 其次,针对信息检索中查询的权重设置问题,本文从机器学习的角度提出一套概率分类的框架,把查询的权重估计任务转化为有监督学习模型中的参数估计任务,并且采用生成式和判别式两种模型去估计查询词的权重。在TREC标准测试集合上的实验结果表明无论是生成式模型或者是判别式模型,都能使检索系统的性能获得显著的提升。 最后,本文对用户提供的显式反馈信息进行研究,引入受限化聚类的算法,把用户的显式反馈信息作为文档聚类的限制条件,使系统获得更多高质量的伪相关文档,从而产生一个更好的查询。作者不仅在传统的标准评测数据上进行模拟实验,同时也在获得用户真实反馈的情况下,在大规模的数据集(ClueWeb09)上进行实验,这些实验的结果都一致地展示了受限化聚类算法在相关反馈中的重要作用。
引用
收藏
页数:97
共 20 条
[1]
基于相关文档池建模的查询扩展 [J].
吕碧波 ;
赵军 .
中文信息学报, 2006, (03) :78-83
[2]
基于HowNet的词汇语义倾向计算 [J].
朱嫣岚 ;
闵锦 ;
周雅倩 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2006, (01) :14-20
[3]
一种文本分类的在线SVM学习算法 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2005, (05) :11-15+23
[4]
一种基于上下文的中文信息检索查询扩展 [J].
贺宏朝 ;
何丕廉 ;
高剑峰 ;
黄昌宁 .
中文信息学报, 2002, (06) :32-37+45
[5]
A Survey of Automatic Query Expansion in Information Retrieval [J].
Carpineto, Claudio ;
Romano, Giovanni .
ACM COMPUTING SURVEYS, 2012, 44 (01)
[6]
Word sense disambiguation.[J].Roberto Navigli.ACM Computing Surveys (CSUR).2009, 2
[7]
Evaluating the accuracy of implicit feedback from clicks and query reformulations in Web search [J].
Joachims, Thorsten ;
Granka, Laura ;
Pan, Bing ;
Hembrooke, Helene ;
Radlinski, Filip ;
Gay, Geri .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2007, 25 (02)
[8]
Linear feature-based models for information retrieval [J].
Metzler, Donald ;
Croft, W. Bruce .
INFORMATION RETRIEVAL, 2007, 10 (03) :257-274
[9]
Similarity of semantic relations [J].
Turney, Peter D. .
COMPUTATIONAL LINGUISTICS, 2006, 32 (03) :379-416
[10]
Combining the language model and inference network approaches to retrieval [J].
Metzler, D ;
Croft, WB .
INFORMATION PROCESSING & MANAGEMENT, 2004, 40 (05) :735-750