基于海量信息过滤的微博热词抽取方法

被引:4
作者
汪洋 [1 ]
帅建梅 [1 ]
陈志刚 [2 ]
机构
[1] 中国科学技术大学信息科学技术学院
[2] 安徽科大讯飞信息科技股份有限公司研究院
关键词
中文微博; 用户行为模型; 海量信息过滤; 热词抽取; 幂律分布;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
针对海量微博信息,提出一种多步骤的热词抽取方法.首先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上提出一种基于规则的话题树生成过滤算法,筛除了微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话题树的节点内容,使用词频及其波动特性设计热词抽取算法,获取微博的热词信息.实验数据表明,该方法能大大减小输入的数据规模,同时较好的保留重要信息,有效实现热词抽取.
引用
收藏
页码:131 / 136
页数:6
相关论文
共 4 条
[1]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, (10) :1795-1802
[2]   微博网络舆情中的意见领袖识别及分析 [J].
刘志明 ;
刘鲁 .
系统工程, 2011, 29 (06) :8-16
[3]   微博社区的谣言传播仿真研究 [J].
许晓东 ;
肖银涛 ;
朱士瑞 .
计算机工程, 2011, 37 (10) :272-274
[4]   Twitter中近似重复消息的判定方法研究 [J].
曹鹏 ;
李静远 ;
满彤 ;
刘悦 ;
程学旗 .
中文信息学报, 2011, (01) :20-27