基于微博转发集的微博过滤研究

被引:3
作者
孙建旺
吕学强
郭跇秀
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
基金
北京市自然科学基金;
关键词
微博转发集; 三元组; 相似度; 微博权重; 过滤;
D O I
10.16508/j.cnki.11-5866/n.2013.03.006
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
针对微博文本的特点,提出了基于微博转发集的过滤方法。借助微博转发集,构建<子串,频次,转发时间差>三元组,形成用户需求模板;以知网为知识源计算微博文本与用户需求模板的相似度,抽取用户感兴趣的内容形成候选文本集;根据提出的基于三元组的微博权重计算方法,对候选集做进一步筛选,最终得到用户需求的微博文本。实验结果表明,基于微博转发集的过滤方法在滤准率和滤全率2个指标上比基于关键词与KNN的方法有了显著的提高。
引用
收藏
页码:27 / 33
页数:7
相关论文
共 7 条
[1]   一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法 [J].
王琳 ;
冯时 ;
徐伟丽 ;
杨卓 ;
王大玲 ;
张一飞 .
计算机应用与软件, 2012, 29 (08) :25-29+94
[2]   基于层次结构的多策略中文微博情感分析和特征抽取 [J].
谢丽星 ;
周明 ;
孙茂松 .
中文信息学报, 2012, (01) :73-83
[3]   基于《知网》的词语相似度计算研究 [J].
袁晓峰 .
成都大学学报(自然科学版), 2011, (04) :339-341
[4]   DSTFA分布式短文本过滤算法 [J].
沈竞 ;
蒋侨 .
四川兵工学报, 2011, 32 (10) :151-153+156
[5]   基于概念格的文本过滤模型设计 [J].
邵建双 ;
李冠宇 ;
张俊 .
计算机工程与设计, 2011, 32 (03) :1047-1050
[6]   基于KNN的不良文本过滤方法 [J].
王洪彬 ;
刘晓洁 .
计算机工程, 2009, 35 (24) :69-71
[7]   基于概念的文本过滤模型 [J].
赵丰年 ;
刘林 ;
商建云 .
计算机工程与应用 , 2006, (04) :186-188