基于LDA模型的文本聚类研究

被引:69
作者
王鹏 [1 ]
高铖 [1 ]
陈晓美 [2 ]
机构
[1] 不详
[2] 长春理工大学计算机科学技术学院
[3] 不详
[4] 吉林大学管理学院
[5] 不详
关键词
文本聚类; LDA模型; 文本相似度; 层次聚类;
D O I
10.13833/j.cnki.is.2015.01.013
中图分类号
G254 [文献标引与编目];
学科分类号
摘要
在Web2.0时代,网络文本数据呈现爆炸式增长,传统的文本聚类模型存在数据维数过高,数据稀疏,缺乏语义理解等问题。针对以上问题,本文提出了一种基于LDA模型,通过Gibbs算法估计文本的主题概率分布,利用JS(Jensen-Shannon)距离作为文本的相似性度量,然后采用层次聚类法进行聚类。实验得到较高的聚类纯度(Purity)和Fscore值,表明该方法是有效的。
引用
收藏
页码:63 / 68
页数:6
相关论文
共 11 条