基于主动学习和否定选择的垃圾邮件分类算法

被引:39
作者
胡小娟 [1 ]
刘磊 [1 ]
邱宁佳 [2 ]
机构
[1] 吉林大学计算机科学与技术学院
[2] 长春理工大学计算机科学技术学院
基金
中国博士后科学基金;
关键词
文本分类; 垃圾邮件检测; 主动学习; 否定选择; 双向用户兴趣集;
D O I
暂无
中图分类号
TP393.098 [];
学科分类号
摘要
针对现在网络上泛滥的垃圾邮件问题,本文结合主动学习方法和否定选择算法提出了一种二类文本分类方法:主动否定学习算法.根据用户少量标注建立双向兴趣集,利用否定选择算法的自体异常检测机制改善主动学习中的采样策略,并将双向兴趣集作为检测器,新增样本集作为自体集,对两者进行异常匹配.本文算法与在线垃圾邮件快速识别方法、增强差异性的半监督协同分类算法、垃圾邮件过滤方法、基于人工高免疫的多层垃圾邮件过滤算法和在线主动多领域学习方法在六个常用邮件语料集上进行了分析比较,结果表明本文算法具有较高的准确率、召回率、分类精度,和较低的用户标注负担.使用用户个性喜好转换为双向兴趣特征的方式有助于提高算法的分类能力;利用异常检测匹配选取未知类别特征的方式,有效地降低了用户标注负担.
引用
收藏
页码:203 / 209
页数:7
相关论文
共 13 条
[1]
基于用户兴趣集的在线垃圾邮件快速识别新方法 [J].
王友卫 ;
刘元宁 ;
凤丽洲 ;
朱晓冬 .
电子学报, 2015, 43 (10) :1963-1970
[2]
基于主动学习的模式类别挖掘模型 [J].
郭虎升 ;
王文剑 .
计算机研究与发展, 2014, 51 (10) :2148-2159
[3]
否定选择算法综述 [J].
金章赞 ;
廖明宏 ;
肖刚 .
通信学报 , 2013, (01) :159-170
[4]
一种增强差异性的半监督协同分类算法 [J].
于重重 ;
商利利 ;
谭励 ;
涂序彦 ;
杨扬 ;
王竞燕 .
电子学报, 2013, 41 (01) :35-41
[5]
基于采样策略的主动学习算法研究进展 [J].
吴伟宁 ;
刘扬 ;
郭茂祖 ;
刘晓燕 .
计算机研究与发展 , 2012, (06) :1162-1173
[6]
一种基于人工免疫的多层垃圾邮件过滤算法 [J].
张泽明 ;
罗文坚 ;
王煦法 .
电子学报, 2006, (09) :1616-1620
[7]
A dynamic model for integrating simple web spam classification techniques [J].
Fdez-Glez, Jorge ;
Ruano-Ordas, David ;
Ramon Mendez, Jose ;
Fdez-Riverola, Fiorentino ;
Laza, Rosalia ;
Pavon, Reyes .
EXPERT SYSTEMS WITH APPLICATIONS, 2015, 42 (21) :7969-7978
[8]
A combined negative selection algorithm–particle swarm optimization for an email spam detection system.[J].Ismaila Idris;Ali Selamat;Ngoc Thanh Nguyen;Sigeru Omatu;Ondrej Krejcar;Kamil Kuca;Marek Penhaker.Engineering Applications of Artificial Intelligence.2015,
[9]
Hybrid email spam detection model with negative selection algorithm and differential evolution.[J].Ismaila Idris;Ali Selamat;Sigeru Omatu.Engineering Applications of Artificial Intelligence.2014,
[10]
A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization.[J].Jieming Yang;Yuanning Liu;Xiaodong Zhu;Zhen Liu;Xiaoxu Zhang.Information Processing and Management.2011, 4