基于BTM的微博舆情热点发现

被引:27
作者
王亚民
胡悦
机构
[1] 西安电子科技大学经济与管理学院
关键词
词对主题模型; 短文本; 微博舆情; 相似性度量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; G206 [传播理论];
学科分类号
摘要
[目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信息是一个很有价值的研究课题。[方法/过程]提出一种基于BTM模型的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF权重计算算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF权重算法结合对微博文本进行特征提取及相似性度量,然后采用K-means聚类方法发现热点话题。[结果/结论]通过对新浪微博数据集的对比实验及结果分析验证了本方法的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。
引用
收藏
页码:119 / 124+140 +140
页数:7
相关论文
共 23 条
[1]  
基于改进的TF-IDF算法的中文微博话题检测与研究.[D].金镇晟.北京理工大学.2015, 03
[2]  
基于隐含语义分析的微博热点话题发现策略.[D].马雯雯.重庆大学.2013, 03
[3]  
中文微博的语体特征研究.[D].邬智慧.华中师范大学.2012, 10
[4]  
An improved focused crawler based on Semantic Similarity Vector Space Model.[J].Yajun Du;Wenjun Liu;Xianjing Lv;Guoli Peng.Applied Soft Computing.2015,
[5]   Learning to classify short text from scientific documents using topic models with various types of knowledge [J].
Vo, Duc-Thuan ;
Ock, Cheol-Young .
EXPERT SYSTEMS WITH APPLICATIONS, 2015, 42 (03) :1684-1698
[6]   A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER [J].
Atefeh, Farzindar ;
Khreich, Wael .
COMPUTATIONAL INTELLIGENCE, 2015, 31 (01) :132-164
[7]   Extraction of Discriminative Patterns from Skeleton Sequences for Accurate Action Recognition [J].
Tran Thang Thanh ;
Chen, Fan ;
Kotani, Kazunori ;
Le, Bac .
FUNDAMENTA INFORMATICAE, 2014, 130 (02) :247-261
[8]   基于Document Triage的TF-IDF算法的改进 [J].
李镇君 ;
周竹荣 .
计算机应用, 2015, 35 (12) :3506-3510+3514
[9]   一种新的微博短文本特征词选择算法 [J].
黄贤英 ;
陈红阳 ;
刘英涛 ;
熊李媛 .
计算机工程与科学, 2015, 37 (09) :1761-1767
[10]   基于MB-HDP模型的微博主题挖掘 [J].
刘少鹏 ;
印鉴 ;
欧阳佳 ;
黄云 ;
杨晓颖 .
计算机学报, 2015, 38 (07) :1408-1419