中文微博突发事件检测研究

被引:22
作者
王勇 [1 ]
肖诗斌 [1 ,2 ]
郭跇秀 [1 ]
吕学强 [1 ,2 ]
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
[2] 北京拓尔思信息技术股份有限公司
基金
北京市自然科学基金;
关键词
突发事件; 突发词; 文本过滤; 绝对聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
从微博中准确而高效地挖掘出突发事件是近年来的研究热点。通过词频统计、词增长率计算和TF-PDF算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤;提出一种"绝对聚类"算法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的作为突发事件。检测准确率为92.60%,召回率为85.51%,F值为0.89。实验结果表明,相比于传统的突发事件检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值。
引用
收藏
页码:57 / 62
页数:6
相关论文
共 6 条
[1]   微博用户的影响力指数模型 [J].
原福永 ;
冯静 ;
符茜茜 .
现代图书情报技术, 2012, (06) :60-64
[2]   一种基于语义的中文文本分类算法 [J].
赵辉 ;
刘怀亮 ;
范云杰 ;
左晓飞 .
情报理论与实践, 2012, (03) :115-118
[3]   一种基于含糊同义词的查询扩展方法 [J].
李海芳 ;
史俊冰 ;
段利国 ;
陈俊杰 .
计算机应用与软件, 2011, 28 (12) :41-43+47
[4]   话题检测与跟踪的评测及研究综述 [J].
洪宇 ;
张宇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (06) :71-87
[5]   Improving the Extraction of Bilingual Terminology from Wikipedia [J].
Erdmann, Maike ;
Nakayama, Kotaro ;
Hara, Takahiro ;
Nishio, Shojiro .
ACM TRANSACTIONS ON MULTIMEDIA COMPUTING COMMUNICATIONS AND APPLICATIONS, 2009, 5 (04)
[6]  
Finding Bursty Topics from Microb-logs. Diao Q M,Jiang J,Zhu F D. Proceedings of ACL . 2012