垃圾微博信息过滤技术的研究

被引：0

作者：

杨赫

机构：

[1] 哈尔滨理工大学

关键词：

垃圾信息过滤; 机器学习; 序贯概率比; PageRank;

D O I：

暂无

年度学位：

2015

学位类型：

硕士

导师：

孙广路;

摘要：

社交网络以其用户量大，信息传播速度快，范围广，互动性强的特点成为目前最大且活跃的社交平台。如新浪微博，微信朋友圈，Google+等社交网络平台已经成为互联网用户生活的重要组成部分。社交网络在给人们的生活带来便利的同时，其本身也成为了一些广告，传销分子散布垃圾微博信息的工具。所以，社交网络中垃圾微博信息的过滤和微博僵尸账号的识别已经成为了重要的热点研究课题。本文以新浪微博为研究平台，采用数据挖掘和机器学习的方法，从分类和排序的两种角度识别新浪微博中的僵尸账号，从而有效地过滤垃圾微博信息，主要工作分为以下四个部分：首先：采用统计机器学习中的在线主动学习算法，设计并实现了基于逻辑回归，朴素贝叶斯，支持向量机三种统计机器学习模型的在线分类系统，分别对单条微博信息进行分类。其次：从分类的角度，由于微博属于短文本，可以提取到的有价值的特征少，特征向量稀疏，机器学习分类器对单条微博的分类效果有限。因此，引入序贯概率比模型，根据第一部分前端分类器对每个账号发布的单条微博分类结果序列，来对微博账号进行分类，从而有效识别微博僵尸账号。再次：以账号为单位，从用户社交行为和微博内容两方面提取账号的特征，通过数据分析选取有效的特征，采用libSVM的分类器进行离线建模和微博账号分类。最后：从排序的角度，通过对微博平台上某个领域的子网中账号之间的社交关系，构建这个子网的社交关系矩阵，采用PageRank算法对子网中账号的价值度进行排序，根据排序结果来对账号进行群体划分，从而确定微博僵尸账号的群体范围。综上所述，本文从账号发布的微博内容和账号的社交行为等方面提取特征，采用统计机器学习的方法对微博僵尸账号进行检测识别，有效地从源头上减少社交网络平台中的垃圾微博信息。

引用

页数：60

共 17 条

[1]

虚拟社区不良信息过滤技术研究 [D].