垃圾邮件分类的偏依赖特性研究

被引:1
作者
刘震
谭良
周明天
机构
[1] 电子科技大学计算机学院卫士通安全联合实验室
关键词
垃圾邮件; 偏依赖; 误报率; 漏报率;
D O I
暂无
中图分类号
TP393.098 [];
学科分类号
摘要
由于相对于漏报,误报会对邮件过滤性能造成更负面的影响,因此有必要研究如何让邮件过滤器对误报代价表现出更高的敏感性.本文通过引入具有偏依赖特征的权值系数函数,提出了一种能够实现非对称训练学习的改进拟合Logistic Regression邮件分类算法模型.根据在实际邮件样本集上所作测试试验,在分类精度性能没有降低的条件下,验证了新分类模型在误报率和漏报率两项指标之间存在较明显的偏依赖特性,同时对扰动特征数据表现出较强鲁棒特性.
引用
收藏
页码:1870 / 1874
页数:5
相关论文
共 5 条
[1]   基于混合高斯模型的电子邮件多过滤器融合方法 [J].
李文斌 ;
刘椿年 ;
陈嶷瑛 .
电子学报, 2006, (02) :247-251
[2]  
Efficient information theoretic strategies for classifier combination, feature extraction and performance evaluation in improving false positives and false negatives for spam e-mail filtering[J] . V. Zorkadis,D.A. Karras,M. Panayotou.Neural Networks . 2005 (5)
[3]  
An evaluation of statistical spam filtering techniques[J] . Le Zhang,Jingbo Zhu,Tianshun Yao.ACM Transactions on Asian Language Information Processing (TALIP) . 2004 (4)
[4]  
Bayesian Framework for Least-Squares Support Vector Machine Classifiers, Gaussian Processes, and Kernel Fisher Discriminant Analysis[J] . T. Van Gestel,J. A. K. Suykens,G. Lanckriet,A. Lambrechts,B. De Moor,J. Vandewalle.Neural Computation . 2002 (5)
[5]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47