基于BSMOTE和逆转欠抽样的不均衡数据分类算法

被引:11
作者
陈睿
张亮
杨静
胡荣贵
机构
[1] 解放军电子工程学院网络系
基金
安徽省自然科学基金;
关键词
不均衡数据集; 边界少数类样本合成过抽样技术; 逆转欠抽样技术; 多分类器集成;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。
引用
收藏
页码:3299 / 3303
页数:5
相关论文
共 7 条
[1]
基于谱聚类欠取样的不均衡数据SVM分类算法 [J].
陶新民 ;
张冬雪 ;
郝思媛 ;
付丹丹 .
控制与决策 , 2012, (12) :1761-1768+1775
[2]
不均衡数据集文本分类中少数类样本生成方法研究 [J].
杜娟 ;
姜丽丽 ;
陈红丽 .
计算机应用研究, 2009, 26 (10) :3731-3734
[3]
神经网络结构与训练参数选取 [J].
尚钢 ;
钟珞 ;
陈立耀 .
武汉工业大学学报, 1997, (02) :108-110
[4]
Dynamic classifier ensemble using classification confidence.[J].Leijun Li;Bo Zou;Qinghua Hu;Xiangqian Wu;Daren Yu.Neurocomputing.2013, Jan.1
[5]
Analysis of preprocessing vs. cost-sensitive learning for imbalanced classification. Open problems on intrinsic data characteristics.[J].Victoria López;Alberto Fernández;Jose G. Moreno-Torres;Francisco Herrera.Expert Systems With Applications.2011, 7
[6]
On the effectiveness of preprocessing methods when dealing with different levels of class imbalance.[J].V. García;J.S. Sánchez;R.A. Mollineda.Knowledge-Based Systems.2011, 1
[7]
The effect of imbalanced data sets on LDA: A theoretical and empirical analysis.[J].Jigang Xie;Zhengding Qiu.Pattern Recognition.2006, 2