基于文本分类技术的垃圾邮件过滤研究

被引：0

作者：

张小花

机构：

[1] 安徽大学

关键词：

垃圾邮件; 互信息; 相对依存度; 隐朴素贝叶斯; k折交叉验证;

D O I：

暂无

年度学位：

2017

学位类型：

硕士

导师：

方宏彬;

摘要：

随着互联网广告技术的发展和E-mail的普及,垃圾邮件广告越来越严重,如何准确过滤垃圾邮件直接影响用户体验。本论文是在前人的理论与研究基础上,系统的学习了垃圾邮件分类的方法,主要分析的重点是朴素贝叶斯分类方法在垃圾邮件过滤上的研究。本文首先从定义、特征以及危害等方面对垃圾邮件进行了一个概述,分析了国内外垃圾邮件研究的现状,介绍了基于信件源以及基于内容的两种垃圾邮件过滤方法。其中基于内容统计的朴素贝叶斯分类方法其比较高效、经济并且易于实现的优点,而在垃圾邮件过滤的研究中得到了广泛的应用。接着介绍了文本分类的关键技术,有文本预处理、文本特征选择、文本表示方法以及文本分类算法。最后用实验证明本文在传统的朴素贝叶斯分类的基础上提出的几大改进地方使分类性能得到了提高。鉴于保证邮件准确分类的重要性以及数据的真实性以及权威性,本文利用Apache SpamAssassin Project数据设计了五组对比实验。实验一用没有经过任何处理的数据直接建立伯努利朴素贝叶斯分类模型,由于词典单词量大,从而联合概率分布计算量大,超出了计算机现有的计算能力,在计算文本被判为某类别的概率的过程中很容易超出浮点数的范围,使计算结果为零,影响分类准确率。故本文优化了计算过程,转而计算文本被判为正常邮件概率与被判为垃圾邮件概率之比,将分类正确率从88.3%提升到92.3%。虽然经过巧妙的比值计算处理,最大限度的利用了浮点数的存取范围,但该概率的比值还是会出现为零和为无穷大的情况,故需要降低文本特征维度。实验二首先是按照传统方法去除停用词,结果发现准确率反而降低了,说明有些停用词对文本分类还是有一定的贡献的,进而转向特征提取方法。实验三根据互信息特征提取方法作出了改进,提出"相对依存度、分类能力、综合分类能力"等概念,提出另一种分类依据,并将其与互信息方法进行对比,发现当都选取一万左右的特征词时,准确率从87.8%提高到了 96.6%。改进后的方法可以提取出综合分类能力最大的特征集,但是对于给定的测试邮件,它的分类能力并不是最大的。故本文在此基础上进行了深入探讨,实验四对特征选择的计算方法又作出了改进,并称之为自适应特征选择,实验结果是分类准确率普遍得到了提高。在特征集维度合适的情况下,实验五为了降低朴素贝叶斯中各属性特征间相互独立这一严格的假设,通过为每个属性建立一个隐藏的父节点来描述该属性与其他属性间的一种依赖关系,并称之单隐朴素贝叶斯,最后在该模型的计算方法又提出了略小的改进,实验结果表面,分类准确率得到了提高。为提高准确性,所有实验均采取的是十折交叉验证。

引用

页数：64

共 35 条

[1]

基于Bayes算法的垃圾邮件过滤 [J].