基于字符语言模型的垃圾邮件过滤

被引:14
作者
苏绥
林鸿飞
叶正
机构
[1] 大连理工大学计算机科学与工程系
关键词
计算机应用; 中文信息处理; 垃圾邮件过滤; 语言模型; 朴素贝叶斯; 支撑向量机; n-Gram;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。该文先简单综述了当前基于内容的垃圾邮件过滤中采用的各种技术,在此基础上提出将基于字符的语言模型应用于垃圾邮件过滤任务中,并通过实验对比了该方法与Na ve Bayes、SVM和基于词的语言模型方法的性能差异,以及不同n值、不同特征选择方式对过滤结果的影响。实验结果表明,基于字符的语言模型实现简单且具有很高的性能,能较好地满足大规模在线邮件系统的需要,具有很高的实用价值。
引用
收藏
页码:41 / 47
页数:7
相关论文
共 2 条
[1]
基于内容的垃圾邮件过滤研究 [D]. 
潘文锋 .
中国科学院研究生院(计算技术研究所),
2004
[2]
基于内容的垃圾邮件过滤技术综述 [J].
王斌 ;
潘文锋 .
中文信息学报, 2005, (05) :1-10