融合主题与语言模型的蒙古文信息检索方法研究

被引:5
作者
斯日古楞
林民
田长波
机构
[1] 内蒙古师范大学计算机与信息工程学院
关键词
蒙古文; 语言模型; 主题模型; Gibbs采样; 信息检索;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
为了从日益丰富的蒙古文信息中快速准确地检索用户需求的主题信息,提出了一种融合LDA主题模型与语言模型的方法。该方法首先对蒙古文文本建立一元和二元语言模型,得到文本的语言概率分布;然后基于LDA建立主题模型,利用吉普斯抽样方法计算模型的参数,挖掘得到文档隐含的主题概率分布;最后,计算出文档主题分布与语言分布的线性组合概率分布,以此分布来计算文档主题与查询关键词之间的相似度,返回与查询关键词主题最相关的文档。语言模型充分利用蒙古文语法特征,而主题模型LDA又具有良好的潜在语义挖掘及主题发现的泛化学习能力,从而结合两种方法更好地实现蒙古文文档的主题语义检索,提高检索准确性。实验结果表明,融合LDA与语言模型的方法相比单一模型体现主题语义方面取得了较好的效果。
引用
收藏
页码:3676 / 3680
页数:5
相关论文
共 17 条