高性能中文垃圾邮件过滤器

被引:11
作者
齐浩亮 [1 ]
程晓龙 [1 ]
杨沐昀 [2 ]
何晓宁 [3 ]
李生 [2 ]
雷国华 [1 ]
机构
[1] 黑龙江工程学院计算机科学与技术系
[2] 哈尔滨工业大学计算机科学与技术学院
[3] 哈尔滨理工大学计算机科学与技术学院
关键词
计算机应用; 中文信息处理; 中文垃圾邮件过滤; 在线学习; 逻辑回归模型; 字节级n元文法; TONE;
D O I
暂无
中图分类号
TP393.098 [];
学科分类号
摘要
设计并实现了基于在线过滤模式高性能中文垃圾邮件过滤器,能够较好地识别不断变化的垃圾邮件。以逻辑回归模型为基础,该文提出了字节级n元文法提取邮件特征,并采用TONE(Train On or Near Error)方法训练过滤器。在多个大规模中文垃圾邮件过滤公开评测数据上的实验结果表明,该文过滤器的性能在TREC 06C数据上优于当年评测的最好成绩,在SEWM07立即反馈上1-ROCA值达到了0.000 0%,并明显优于SEWM08评测在线过滤任务中的所有其他方法。
引用
收藏
页码:76 / 83
页数:8
相关论文
共 2 条
[1]
基于字符语言模型的垃圾邮件过滤 [J].
苏绥 ;
林鸿飞 ;
叶正 .
中文信息学报, 2009, 23 (02) :41-47
[2]
基于多过滤器集成学习的在线垃圾邮件过滤 [J].
刘伍颖 ;
王挺 .
中文信息学报, 2008, (01) :67-73