微博中基于统计特征与双向投票的垃圾用户发现

被引:11
作者
丁兆云 [1 ,2 ,3 ]
周斌 [3 ]
贾焰 [3 ]
汪祥 [3 ]
机构
[1] 国防科学技术大学信息系统与管理学院
[2] 国防科学技术大学信息系统工程重点实验室
[3] 国防科学技术大学计算机学院
关键词
垃圾用户; 信任传播; 三角形统计; 微博; 社会网络;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
传统微博中垃圾用户发现主要依靠用户的显示统计特征.针对微博中关注网络的有向特性,给出了有向网络中局部三角形数量统计算法DirTriangleC,结合用户博文数量和局部三角形比例发现隐式垃圾用户;针对统计特征方法对垃圾用户误报和漏报的缺点,提出了基于统计特征与双向投票算法AttriBiVote,利用用户信任的双向传播与其邻居节点的统计特征共同决定用户类别.真实的Twitter数据集上验证了DirTriangleC和AttriBiVote算法的有效性,结果表明DirTriangleC算法能够发现约83.7%的"完全非活跃"状态的隐式垃圾用户,相对依靠显示统计特征方法增加了约2倍数量的疑似垃圾用户;同时AttriBiVote算法发现垃圾用户的数量和准确性均高于依靠统计特征的垃圾用户发现方法;最后实验分析了AttriBiVote算法的时间开销.
引用
收藏
页码:2336 / 2348
页数:13
相关论文
共 6 条
  • [1] 基于邮件路径地理属性分析的垃圾邮件过滤算法
    张尼
    姜誉
    方滨兴
    郭莉
    [J]. 通信学报, 2007, (12) : 90 - 95
  • [2] 一种基于人工免疫的多层垃圾邮件过滤算法
    张泽明
    罗文坚
    王煦法
    [J]. 电子学报, 2006, (09) : 1616 - 1620
  • [3] Efficient semi-streaming algorithms for local triangle counting in massive graphs. Luca Becchetti,Paolo Boldi,Carlos Castillo, et al. Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining . 2008
  • [4] Who is Tweeting on Twitter: Human, Bot,or Cyborg. Chu Z,Gianvecchio S,Wang H. Proceedings of the26th Annual Computer SecurityApplications Conference . 2010
  • [5] Google Pagerank - Pr 0. Markus Sobek. http : //pr.efactory.de/e pr0.shtml . 2003
  • [6] Detecting spam in a Twitter network. Yardi S,Romero D,Schoenebeck G,et al. http://www.uic.edu/htbin/cgiwrap/bin/ojs/index.php/fm/article/viewArticle/2793/2431 . 2010