基于UR-LDA的微博主题挖掘

被引:5
作者
陈阳 [1 ]
邵曦 [1 ]
赵海博 [2 ]
机构
[1] 南京邮电大学通信与信息工程学院
[2] 软通动力信息技术有限公司
关键词
微博; 主题挖掘; UR-LDA; 吉布斯抽样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
摘要
以微博为代表的社交网络已经成为用户发布和获取实时信息的重要手段,然而这些实时信息中很大一部分都是垃圾或者是冗余的信息。通过有效的手段,精准地发现、组织和利用社交网络海量短文本背后隐藏的有价值的信息,对微博中隐含主题的挖掘,具有较高的舆情监控和商业推广价值。尽管概率生成主题模型LDA(Latent Dirichlet Allocation)在主题挖掘方面已经得到了广泛的应用,但由于微博短文本消息语义稀疏以及文本之间相互关联等特点,传统的LDA模型并不能很好地对它进行建模。为此,基于LDA模型,综合考虑微博的文本关联关系和联系人关联关系,提出了适用于处理微博用户关系数据的UR-LDA模型,并采用吉布斯抽样对模型进行推导。真实数据集上的实验结果表明,UR-LDA模型能有效地对微博进行主题挖掘。
引用
收藏
页码:173 / 177+182 +182
页数:6
相关论文
共 5 条