基于MB-HDP模型的微博主题挖掘

被引:31
作者
刘少鹏
印鉴
欧阳佳
黄云
杨晓颖
机构
[1] 中山大学信息科学与技术学院计算机科学系
基金
广东省科技计划; 广东省自然科学基金;
关键词
主题挖掘; 微博; 分层Dirichlet过程; MB-HDP;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
080402 ; 081203 ; 0835 ;
摘要
主题模型是挖掘微博潜在主题的重要工具.然而,现有的主题模型多由Latent Dirichlet Allocation(LDA)派生,它需要用户预先指定主题数目.为了自动挖掘微博主题,作者提出了一个基于分层Dirichlet过程(Hierarchical Dirichlet Process,HDP)的非参数贝叶斯模型MB-HDP.首先,针对微博应用场景,假设消息是不可交换的;接着,利用微博的时间信息、用户兴趣以及话题标签,聚合主题相关的消息以解决微博短文本的数据稀疏问题;然后,扩展Chinese Restaurant Franchise(CRF)对微博数据进行主题建模;最后,设计一个相应的Markov Chain Monte Carlo(MCMC)采样方法,推导MB-HDP模型的分布参数.实验表明,在生成主题质量、内容困惑度和模型复杂度等指标上,MB-HDP模型明显优于LDA和HDP两种模型.
引用
收藏
页码:1408 / 1419
页数:12
相关论文
共 3 条
[1]   自然语言处理中主题模型的发展 [J].
徐戈 ;
王厚峰 .
计算机学报, 2011, 34 (08) :1423-1436
[2]  
分层Dirichlet过程及其应用综述[J]. 周建英,王飞跃,曾大军.自动化学报. 2011(04)
[3]  
OPTIMOL: Automatic Online Picture Collection via Incremental Model Learning[J] . Li-Jia Li,Li Fei-Fei.International Journal of Computer Vision . 2010 (2)