微博垃圾信息检测

被引:0
作者
杨凯帆
机构
[1] 中国科学技术大学
关键词
微博; 垃圾信息检测; 垃圾用户; 垃圾微博;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
微博已经成为人们社会生活中一个重要的信息传播与交流平台。海量的微博数据蕴含着大量有价值的信息,这些信息对于政府和企业决策有着重要的参考意义,例如,可以让商家更好的了解市场状况并优化营销策略,可以让政府部门更好地了解社会舆情。 但是,近年来微博平台上出现了许多的垃圾用户(如僵尸粉)和垃圾微博(例如广告推广信息)。这些垃圾信息的存在不仅影响微博数据挖掘和决策分析的效果,也会影响微博平台的健康发展和用户的使用体验。因此,检测并过滤微博垃圾信息对微博数据分析和挖掘工作具有重要的作用与意义。本文主要研究了微博垃圾信息检测的两类问题——垃圾用户检测和垃圾微博检测。垃圾用户主要包括僵尸粉和营销型用户;垃圾微博是指含有话题的微博中微博内容与话题不相关的微博。本文主要的工作和贡献可总结为以下两点: (1)微博垃圾用户检测 通过对用户特征的详细分析,我们发现僵尸粉与营销用户在特征上有显著的差异,因此我们提出了将垃圾用户分为僵尸粉和营销用户分别检测的思路。针对僵尸粉型垃圾用户,我们提出了通过用户社交关系计算正常/垃圾得分辅助检测微博垃圾用户的方法。针对营销型垃圾用户,我们提出了借助重复信息发现潜在垃圾用户的方法。实际数据集上的实验验证了我们所提方法的有效性。(2)话题背景下的垃圾微博检测 在含有话题的微博中,存在着一些微博的内容与当前话题并不相关的微博。这些垃圾微博不仅影响了普通用户对此话题的浏览时的体验,在后续的话题分析等相关工作中也会影响数据分析的效果。针对话题背景下的垃圾微博检测问题,本文提出了结合用户可信度的垃圾微博检测方法。该方法不仅考虑了微微博本及自身相关特征,还考虑了微博作者的可信度。实际数据集上的实验验证了我们所提方法的有效性。
引用
收藏
页数:74
共 12 条
[1]
基于内容的垃圾邮件过滤研究 [D]. 
潘文锋 .
中国科学院研究生院(计算技术研究所),
2004
[2]
一种新型智能僵尸粉甄别方法 [J].
方明 ;
方意 .
计算机工程, 2013, 39 (04) :190-193+198
[3]
一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法 [J].
王琳 ;
冯时 ;
徐伟丽 ;
杨卓 ;
王大玲 ;
张一飞 .
计算机应用与软件, 2012, 29 (08) :25-29+94
[4]
Twitter中近似重复消息的判定方法研究 [J].
曹鹏 ;
李静远 ;
满彤 ;
刘悦 ;
程学旗 .
中文信息学报, 2011, 25 (01) :20-27
[5]
一种词汇共现算法及共现词对检索系统排序的影响 [J].
陈翀 ;
彭波 ;
闫宏飞 ;
王继民 .
清华大学学报(自然科学版), 2005, (自然科学版) :1857-1860
[6]
WARNING BIRD:Detecting Suspicious URLs in Twitter Stream..Sangho Lee;Jong Kim;.Network & Distributed System Security (NDSS).2012,
[7]
Spam filtering in twitter using senderreceiver relationship..Song J;Lee S;Kim J;.Recent Advances in Intrusion Detection.2011,
[8]
Propagating Both Trust and Distrust with Target Differentiation for Combating Link-Based Web Spam [J].
Zhang, Xianchao ;
Wang, You ;
Mou, Nan ;
Liang, Wenxin .
ACM TRANSACTIONS ON THE WEB, 2014, 8 (03)
[9]
Twitter spammer detection using data stream clustering.[J].Zachary Miller;Brian Dickinson;William Deitrick;Wei Hu;Alex Hai Wang.Information Sciences.2014,
[10]
Detecting malicious tweets in trending topics using a statistical analysis of language.[J].Juan Martinez-Romo;Lourdes Araujo.Expert Systems With Applications.2012,