基于数据挖掘的邮件分类识别研究

被引:0
作者
李洋
机构
[1] 重庆大学
关键词
决策树; 信息增益; 数据挖掘; 垃圾邮件;
D O I
暂无
年度学位
2004
学位类型
硕士
导师
摘要
伴随着Internet的普及,电子邮件作为一个主要的交流方式得到了更广泛的使用,但随之而来的垃圾邮件也越来越令人头痛。据统计每年美国因垃圾邮件受到的损失高达10亿美元,全球的损失更是高达20亿美元。中国互联网络信息中心2003年7月公布的《中国互联网络发展状况统计报告》显示,中国网民平均每周收到的16封电子邮件中垃圾邮件就占了9封,已经超过了正常邮件数量,并有进一步增长的趋势。在我国,垃圾邮件占用了大量的网络带宽资源,造成邮件服务器拥塞以至于瘫痪;垃圾邮件因其数量多、反复性、强制性、欺骗性、不健康性等特点,严重干扰用户的正常使用,耗费收件人的时间、精力和金钱;有些邮件妖言惑众、骗人钱财、传播色情、散布反动信息等,已经对社会造成极大危害。 但是在与垃圾邮件快速增长的同时,反垃圾邮件的技术几乎停滞不前。由于目前主流的邮件过滤技术缺乏智能性和自学习性,无法通过对已有垃圾邮件的学习来获取识别新垃圾邮件的知识。虽然目前也有部分邮件过滤技术具有学习能力(比如贝叶斯过滤技术),但该技术仅局限与针对邮件的正文内容进行学习,对于结构化文本信息的电子邮件来说,这种技术有其自身的不足。 本文在贝叶斯过滤技术的启发下,选择数据挖掘的方法来研究一种具有学习能力的邮件过滤技术。近年来数据挖掘技术被广泛应用到了诸多领域,引起了学术界极大的关注。数据挖掘是一个决策支持过程,基础是人工智能。目前数据挖掘主要利用人工智能中的一些算法和技术,包括决策判定树、人工神经网络技术等来进行预测、模式识别、分类和聚类分析等。 本文通过对电子邮件的分析和研究,提出对邮件结构字段信息和邮件正文信息加以离散和特征化处理,用向量的方式表示电子邮件;接着针对向量化的邮件表示,建立了一种基于信息熵的决策树邮件分类识别模型;论文最后通过编程对该模型作了一系列的实验和测试。实验证明,该模型能从邮件结构字段信息和邮件正文信息中,学习归纳出能识别垃圾邮件的知识和方法,表明本文提出的基于决策树理论的邮件分类模型是可行和有效的,并具有良好的效果。
引用
收藏
页数:57
共 18 条
[1]
基于SM TP协议电子邮件的还原 [J].
丁岳伟 .
小型微型计算机系统, 2002, (03) :290-293
[2]
电子邮件过滤器的分析与设计 [J].
赵晓明 ;
郑少仁 .
东南大学学报(自然科学版), 2001, (05) :19-23
[3]
一个邮件监听程序 [J].
吕常魁 ;
姜澄宇 ;
王宁生 .
计算机应用, 2001, (01) :90-91
[4]
基于特征的贝叶斯过滤网 [J].
田忠和 ;
王明哲 .
华中理工大学学报, 1999, (01)
[5]
数据采掘技术回顾 [J].
李水平 ;
陈意云 ;
黄刘生 .
小型微型计算机系统, 1998, (04)
[6]
网络防火墙技术 [J].
林晓东 ;
杨义先 .
电信科学, 1997, (03)
[7]
垃圾邮件与反垃圾邮件技术.[M].曹麒麟;张千里编著;.人民邮电出版社.2003,
[8]
计算机网络.[M].谢希仁编著;.电子工业出版社.2003,
[9]
FreeBSD使用大全.[M].王波编著;.机械工业出版社.2002,
[10]
知识发现.[M].史忠植著;.清华大学出版社.2002,