基于潜在语义分析的微博主题挖掘模型研究

被引:32
作者
唐晓波
王洪艳
机构
[1] 武汉大学信息资源研究中心
关键词
微博; 短文本; 主题挖掘; LDA模型; 增量聚类;
D O I
暂无
中图分类号
H030 [语义学、语用学]; G206 [传播理论];
学科分类号
030303 ; 0501 ; 050102 ; 050302 ;
摘要
为了弥补目前微博平台主题挖掘方法的不足,兼顾到微博信息的稀疏性、多维性、海量性等特点,提出根据微博信息特点进行有针对性的预处理后,使用基于先验概率的潜在语义分析模型LDA(Latent Dirichlet Alloca-tion)进行微博主题挖掘,并在LDA建模的基础上,设计文本增量聚类算法,进一步实现主题结构的识别,从而使用户更好地理解主题及其结构。通过在真实微博数据集上的实验,证明该模型能有效进行主题挖掘和主题结构的识别。
引用
收藏
页码:114 / 119
页数:6
相关论文
共 4 条
[1]   一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[2]   基于LDA模型的评论热点挖掘:原理与实现 [J].
余传明 ;
张小青 ;
陈雷 .
情报理论与实践, 2010, (05) :103-106
[3]  
微博客热点话题发现策略研究.[D].杨冠超.浙江大学.2011, 07
[4]  
互联网话题演变与传播分析技术研究.[D].郑希文.哈尔滨工程大学.2009, 06