基于主题模型的检索结果聚类应用研究

被引:14
作者
阮光册 [1 ]
夏磊 [2 ]
机构
[1] 华东师范大学经济与管理学部信息管理系
[2] 上海图书馆会展中心
关键词
LDA; 检索结果聚类; 聚类标签; 概率分布; 语义挖掘; K-means;
D O I
暂无
中图分类号
TP391.3 [检索机]; G252.7 [文献检索];
学科分类号
摘要
[目的/意义]检索结果聚类能够帮助用户快速地浏览系统返回的检索结果。传统的基于向量空间的检索结果聚类缺乏对文本深层次的语义联系的挖掘,使得聚类结果的可读性、可理解性存在不足。因此,对检索结果进行语义层面的分析,并实现基于语义的检索结果聚类研究,具有重要的理论和实践意义。[方法/过程]将LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,将"文本-潜在主题"概率分布作为Kmeans聚类依据进行聚类分析,最后提取与聚类中心最近的主题的描述词作为检索结果聚类的标签。[结果/结论]实验表明,该方法在检索结果聚类以及聚类标签识别上具有很好的效果。
引用
收藏
页码:179 / 184
页数:6
相关论文
共 2 条