基于最大熵模型的垃圾邮件过滤系统研究

被引:0
作者
司广涛
机构
[1] 苏州大学
关键词
垃圾邮件过滤; 预处理; 最大熵; 特征提取; 平滑技术; Outlook插件;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/白名单技术、规则过滤等,但由于垃圾邮件的特征在不断地变化,规则难以维护、准确率不高等原因,这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。基于内容的分析能够自动获得垃圾邮件的特征,是一种更为精确的垃圾邮件过滤技术。本文首先介绍了垃圾邮件过滤技术的研究背景,重点对目前常用的基于内容的垃圾邮件过滤算法进行了分析、比较。在此基础上,对邮件进行预处理,将其表示成XML格式,为面向邮件的应用程序开发提供了统一的结构化表示。 最大熵模型是一个比较成熟的统计模型,其计算模型独立于特定的任务,具有简洁、通用和易于移植等特点,近年来在自然语言处理领域得到了广泛应用。本文的重点工作是将最大熵方法应用到垃圾邮件过滤中,提出了基于最大熵的垃圾邮件过滤系统的基本框架;结合邮件的半结构化特性,提取邮件的结构特征、正文特征,对邮件内容进行初步的信息抽取,将邮件表示成邮件特征向量,并对使用不同特征集情况下的过滤性能进行了对比实验;改进传统最大熵模型中的特征函数定义,实验结果表明词频特征函数具有较好的过滤性能;引入N-gram中性能较好的平滑算法对最大熵模型进行平滑,解决“稀疏”事件问题,对绝对折扣和高斯先验两种平滑算法进行了对比;提出了过滤模型的自适应调整和学习算法,以适应邮件特征的变化,满足用户的个性化过滤要求;将最大熵方法与其它常用的垃圾邮件过滤方法进行了性能比较,实验结果表明,这种方法在召回率、正确率、F1值、错误率等方面表现出了良好的过滤性能。 最后,将基于最大熵的垃圾邮件过滤方法与Outlook提供的PIA相结合,开发出一个垃圾邮件过滤插件,在客户端用最大熵方法实现了基于内容的垃圾邮件过滤,较好地帮助用户解决了垃圾邮件泛滥的问题。
引用
收藏
页数:90
共 17 条
[1]
设反垃圾邮件技术的研究和原型实现 [D]. 
赖均 .
电子科技大学,
2005
[2]
基于数据挖掘的邮件分类识别研究 [D]. 
李洋 .
重庆大学,
2004
[3]
统计自然语言处理基础.[M].(美)ChristopherD.Manning;(德)HinrichSchutze著;苑春法等译;.电子工业出版社.2005,
[4]
垃圾邮件与反垃圾邮件技术.[M].曹麒麟;张千里编著;.人民邮电出版社.2003,
[5]
Internet Email协议开发指南.[M].(美)[K.约翰逊]KevinJohnson著;科欣翻译组译;.机械工业出版社.2000,
[6]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[7]
最大熵方法及其在自然语言处理中的应用 [D]. 
周雅倩 .
复旦大学,
2005
[8]
中文信息处理中自动分词技术的研究与展望 [J].
刘迁 ;
贾惠波 .
计算机工程与应用 , 2006, (03) :175-177+182
[9]
基于内容的垃圾邮件过滤技术综述 [J].
王斌 ;
潘文锋 .
中文信息学报, 2005, (05) :1-10
[10]
遗传神经网络在邮件过滤器中的应用 [J].
王波 ;
黄迪明 .
电子科技大学学报, 2005, (04) :505-508