一种面向微博主题挖掘的改进LDA模型

被引:27
作者
谢昊
江红
机构
[1] 华东师范大学计算中心
关键词
新浪微博; 文本挖掘; RT-LDA; 吉布斯抽样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着新浪微博用户的不断增长,微博网站成为很多人获取信息的平台.但是微博是一种特殊的文本,其字数受到严格限制,传统的主题模型并不能很好地分析微博的内容.本文提出了一个基于LDA的微博生成模型RT-LDA来解决微博字数受限的问题.模型采用吉布斯抽样法来推导,不仅能准确地挖掘每条微博的主题,还能归纳出用户关注的主题分布情况.在真实数据集上的实验表明,RT-LDA模型能很好地对微博进行主题挖掘.
引用
收藏
页码:93 / 101
页数:9
相关论文
共 4 条
[1]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, 48 (10) :1795-1802
[2]   新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305
[3]   Probabilistic Topic Models [J].
Blei, David M. .
COMMUNICATIONS OF THE ACM, 2012, 55 (04) :77-84
[4]   ON INFORMATION AND SUFFICIENCY [J].
KULLBACK, S ;
LEIBLER, RA .
ANNALS OF MATHEMATICAL STATISTICS, 1951, 22 (01) :79-86