基于生物序列模式提取技术的邮件过滤算法

被引:4
作者
陈蔚然
董守斌
机构
[1] 广东省计算机网络重点实验室
[2] 华南理工大学
[3] 广东省计算机网络重点实验室 广州510640
关键词
邮件过滤; 模式提取; TEIRESIAS算法;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.002
中图分类号
TP393.098 [];
学科分类号
080402 ;
摘要
为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TE IRES IA S的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法B ioM atrix,并实现了基于此算法的中英文邮件过滤系统。过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2%的垃圾邮件,误过滤率约0.04%。与B ayes过滤算法对比的实验结果表明,将生物序列模式提取技术应用于邮件过滤具有较好的研究和实用价值。
引用
收藏
页码:1734 / 1737
页数:4
相关论文
共 1 条
[1]   中文分词在邮件过滤系统中的应用 [J].
林珊 ;
宁国宁 ;
赵之霖 .
华南理工大学学报(自然科学版), 2004, (S1) :112-116