垃圾微博信息过滤技术的研究

被引:0
作者
杨赫
机构
[1] 哈尔滨理工大学
关键词
垃圾信息过滤; 机器学习; 序贯概率比; PageRank;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
社交网络以其用户量大,信息传播速度快,范围广,互动性强的特点成为目前最大且活跃的社交平台。如新浪微博,微信朋友圈,Google+等社交网络平台已经成为互联网用户生活的重要组成部分。社交网络在给人们的生活带来便利的同时,其本身也成为了一些广告,传销分子散布垃圾微博信息的工具。所以,社交网络中垃圾微博信息的过滤和微博僵尸账号的识别已经成为了重要的热点研究课题。 本文以新浪微博为研究平台,采用数据挖掘和机器学习的方法,从分类和排序的两种角度识别新浪微博中的僵尸账号,从而有效地过滤垃圾微博信息,主要工作分为以下四个部分: 首先:采用统计机器学习中的在线主动学习算法,设计并实现了基于逻辑回归,朴素贝叶斯,支持向量机三种统计机器学习模型的在线分类系统,分别对单条微博信息进行分类。 其次:从分类的角度,由于微博属于短文本,可以提取到的有价值的特征少,特征向量稀疏,机器学习分类器对单条微博的分类效果有限。因此,引入序贯概率比模型,根据第一部分前端分类器对每个账号发布的单条微博分类结果序列,来对微博账号进行分类,从而有效识别微博僵尸账号。 再次:以账号为单位,从用户社交行为和微博内容两方面提取账号的特征,通过数据分析选取有效的特征,采用libSVM的分类器进行离线建模和微博账号分类。 最后:从排序的角度,通过对微博平台上某个领域的子网中账号之间的社交关系,构建这个子网的社交关系矩阵,采用PageRank算法对子网中账号的价值度进行排序,根据排序结果来对账号进行群体划分,从而确定微博僵尸账号的群体范围。 综上所述,本文从账号发布的微博内容和账号的社交行为等方面提取特征,采用统计机器学习的方法对微博僵尸账号进行检测识别,有效地从源头上减少社交网络平台中的垃圾微博信息。
引用
收藏
页数:60
共 17 条
[1]
虚拟社区不良信息过滤技术研究 [D]. 
张磊 .
昆明理工大学,
2011
[2]
基于群体特征的社交僵尸网络检测方法 [J].
倪平 ;
张玉清 ;
闻观行 ;
刘奇旭 ;
范丹 .
中国科学院大学学报, 2014, 31 (05) :691-700+713
[3]
基于多视角特征融合的中文垃圾微博过滤 [J].
于然 ;
刘春阳 ;
靳小龙 ;
王元卓 ;
程学旗 .
山东大学学报(理学版), 2013, 48 (11) :53-58
[4]
基于微博转发集的微博过滤研究 [J].
孙建旺 ;
吕学强 ;
郭跇秀 .
北京信息科技大学学报(自然科学版), 2013, 28 (03) :27-33
[5]
Spam Filtering:Online Naive Bayes Based on TONE [J].
Guanglu Sun ;
Hongyue Sun ;
Yingcai Ma ;
Yuewu Shen .
ZTECommunications, 2013, 11 (02) :51-54
[6]
高性能中文垃圾邮件过滤器 [J].
齐浩亮 ;
程晓龙 ;
杨沐昀 ;
何晓宁 ;
李生 ;
雷国华 .
中文信息学报, 2010, 24 (02) :76-83
[7]
一种基于PageRank的页面排序改进算法 [J].
王冬 ;
雷景生 .
微电子学与计算机, 2009, 26 (04) :210-213
[8]
分类器性能评价标准研究 [J].
秦锋 ;
杨波 ;
程泽凯 .
计算机技术与发展, 2006, (10) :85-88
[9]
统计学习方法.[M].李航; 著.清华大学出版社.2012,
[10]
序贯分析.[M].陈家鼎 编.北京大学出版社.1995,