基于LDA主题模型的分布式信息检索集合选择方法

被引:20
作者
何旭峰 [1 ]
陈岭 [1 ]
陈根才 [1 ]
钱坤 [1 ]
吴勇 [2 ]
王敬昌 [2 ]
机构
[1] 浙江大学计算机科学与技术学院
[2] 浙江鸿程计算机系统有限公司
关键词
集合选择; 分布式信息检索; LDA;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
该文针对分布式信息检索时不同集合对最终检索结果贡献度有差异的现象,提出一种基于LDA主题模型的集合选择方法。该方法首先使用基于查询的采样方法获取各集合描述信息;其次,通过建立LDA主题模型计算查询与文档的主题相关度;再次,用基于关键词相关度与主题相关度相结合的方法估计查询与样本集中文档的综合相关度,进而估计查询与各集合的相关度;最后,选择相关度最高的M个集合进行检索。实验部分采用Rm、P@n和MAP作为评价指标,对集合选择方法的性能进行了验证。实验结果表明该方法能更准确的定位到包含相关文档多的集合,提高了检索结果的召回率和准确率。
引用
收藏
页码:125 / 133
页数:9
相关论文
共 4 条