基于数据挖掘的邮件分类识别研究

被引：0

作者：

李洋

机构：

[1] 重庆大学

关键词：

决策树; 信息增益; 数据挖掘; 垃圾邮件;

D O I：

暂无

年度学位：

2004

学位类型：

硕士

导师：

王康;

摘要：

伴随着Internet的普及，电子邮件作为一个主要的交流方式得到了更广泛的使用，但随之而来的垃圾邮件也越来越令人头痛。据统计每年美国因垃圾邮件受到的损失高达10亿美元，全球的损失更是高达20亿美元。中国互联网络信息中心2003年7月公布的《中国互联网络发展状况统计报告》显示，中国网民平均每周收到的16封电子邮件中垃圾邮件就占了9封，已经超过了正常邮件数量，并有进一步增长的趋势。在我国，垃圾邮件占用了大量的网络带宽资源，造成邮件服务器拥塞以至于瘫痪；垃圾邮件因其数量多、反复性、强制性、欺骗性、不健康性等特点，严重干扰用户的正常使用，耗费收件人的时间、精力和金钱；有些邮件妖言惑众、骗人钱财、传播色情、散布反动信息等，已经对社会造成极大危害。但是在与垃圾邮件快速增长的同时，反垃圾邮件的技术几乎停滞不前。由于目前主流的邮件过滤技术缺乏智能性和自学习性，无法通过对已有垃圾邮件的学习来获取识别新垃圾邮件的知识。虽然目前也有部分邮件过滤技术具有学习能力(比如贝叶斯过滤技术)，但该技术仅局限与针对邮件的正文内容进行学习，对于结构化文本信息的电子邮件来说，这种技术有其自身的不足。本文在贝叶斯过滤技术的启发下，选择数据挖掘的方法来研究一种具有学习能力的邮件过滤技术。近年来数据挖掘技术被广泛应用到了诸多领域，引起了学术界极大的关注。数据挖掘是一个决策支持过程，基础是人工智能。目前数据挖掘主要利用人工智能中的一些算法和技术，包括决策判定树、人工神经网络技术等来进行预测、模式识别、分类和聚类分析等。本文通过对电子邮件的分析和研究，提出对邮件结构字段信息和邮件正文信息加以离散和特征化处理，用向量的方式表示电子邮件；接着针对向量化的邮件表示，建立了一种基于信息熵的决策树邮件分类识别模型；论文最后通过编程对该模型作了一系列的实验和测试。实验证明，该模型能从邮件结构字段信息和邮件正文信息中，学习归纳出能识别垃圾邮件的知识和方法，表明本文提出的基于决策树理论的邮件分类模型是可行和有效的，并具有良好的效果。

引用

页数：57

共 18 条

[1]

基于SM TP协议电子邮件的还原 [J].