基于内容的垃圾邮件过滤技术综述

被引:132
作者
王斌
潘文锋
机构
[1] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 综述; 垃圾邮件; 反垃圾邮件; 信息过滤; 文本分类;
D O I
暂无
中图分类号
TP393.098 [];
学科分类号
摘要
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。
引用
收藏
页码:1 / 10
页数:10
相关论文
共 11 条
  • [1] 基于规则的自动分类在文本分类中的应用
    李渝勤
    孙丽华
    不详
    [J]. 中文信息学报 , 2004, (04) : 9 - 14
  • [2] 智能邮件过滤系统的研究与实现
    落红卫
    刘建毅
    王枞
    钟义信
    [J]. 机电产品开发与创新, 2003, (01) : 51 - 52
  • [3] 一种新的基于统计的自动文本分类方法
    刘斌
    黄铁军
    程军
    高文
    [J]. 中文信息学报, 2002, (06) : 18 - 24
  • [4] 电子邮件过滤技术浅析
    郭泓
    [J]. 信息网络安全, 2002, (10) : 42 - 44
  • [5] 个人化电子邮件自动过滤系统的设计
    谭立球
    谷士文
    费耀平
    [J]. 计算机应用, 2002, (06) : 54 - 55
  • [6] 电子邮件的一种过滤方法
    张长君
    [J]. 计算机安全, 2002, (02) : 42 - 43
  • [7] 电子邮件过滤器的分析与设计
    赵晓明
    郑少仁
    [J]. 东南大学学报(自然科学版), 2001, (05) : 19 - 23
  • [8] 一种基于潜在语义索引的“垃圾”邮件过滤方法
    陈华辉
    [J]. 计算机应用研究, 2000, (10) : 17 - 18+35
  • [9] 电子邮件过滤检测系统的设计与实现
    王庆波
    方滨兴
    云晓春
    [J]. 计算机应用研究, 2000, (10) : 105 - 106
  • [10] A memory-based approach to anti-spam filtering for mailing lists
    Sakkis, G
    Androutsopoulos, I
    Paliouras, G
    Karkaletsis, V
    Spyropoulos, CD
    Stamatopoulos, P
    [J]. INFORMATION RETRIEVAL, 2003, 6 (01): : 49 - 73