一种非平衡数据分类的过采样随机森林算法

被引:49
作者
赵锦阳 [1 ]
卢会国 [1 ,2 ]
蒋娟萍 [1 ,2 ]
袁培培 [3 ]
柳学丽 [4 ]
机构
[1] 成都信息工程大学电子工程学院
[2] 中国气象局大气探测重点开放实验室
[3] 电子科技大学航空航天学院
[4] 南京财经大学信息工程学院
关键词
非平衡数据集; 少数类; 合成样本; 分类;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。
引用
收藏
页码:255 / 261+316 +316
页数:8
相关论文
共 7 条
[1]
面向非平衡训练集分类的随机森林算法优化 [J].
吴琼 ;
李运田 ;
郑献卫 .
工业控制计算机, 2013, 26 (07) :89-90
[2]
随机森林与支持向量机分类性能比较 [J].
黄衍 ;
查伟雄 .
软件, 2012, 33 (06) :107-110
[3]
一种新的不平衡数据学习算法PCBoost [J].
李雄飞 ;
李军 ;
董元方 ;
屈成伟 .
计算机学报, 2012, 35 (02) :2202-2209
[4]
支持向量机研究进展 [J].
顾亚祥 ;
丁世飞 .
计算机科学, 2011, 38 (02) :14-17
[5]
A maximum margin and minimum volume hyper-spheres machine with pinball loss for imbalanced data classification.[J].Yitian Xu;Zhiji Yang;Yuqun Zhang;Xianli Pan;Laisheng Wang.Knowledge-Based Systems.2016,
[6]
Measurement of Data Complexity for Classification Problems with Unbalanced Data [J].
Anwar, Nafees ;
Jones, Geoff ;
Ganesh, Siva .
STATISTICAL ANALYSIS AND DATA MINING, 2014, 7 (03) :194-211
[7]
Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32