共 4 条
一种面向微博主题挖掘的改进LDA模型
被引:27
作者:
谢昊
江红
机构:
[1] 华东师范大学计算中心
来源:
关键词:
新浪微博;
文本挖掘;
RT-LDA;
吉布斯抽样;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
随着新浪微博用户的不断增长,微博网站成为很多人获取信息的平台.但是微博是一种特殊的文本,其字数受到严格限制,传统的主题模型并不能很好地分析微博的内容.本文提出了一个基于LDA的微博生成模型RT-LDA来解决微博字数受限的问题.模型采用吉布斯抽样法来推导,不仅能准确地挖掘每条微博的主题,还能归纳出用户关注的主题分布情况.在真实数据集上的实验表明,RT-LDA模型能很好地对微博进行主题挖掘.
引用
收藏
页码:93 / 101
页数:9
相关论文