基于RSBoost算法的不平衡数据分类方法

被引:22
作者
李克文
杨磊
刘文英
刘璐
刘洪太
机构
[1] 中国石油大学(华东)计算机与通信工程学院
关键词
不平衡数据; 组合数据采样; Boosting; RSBoost;
D O I
暂无
中图分类号
TP311.13 []; TP181 [自动推理、机器学习];
学科分类号
1201 ; 081104 ; 0812 ; 0835 ; 1405 ;
摘要
不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法 RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行过采样处理,然后对整个数据集进行随机欠采样处理,以改善整个数据集的不平衡性,再将其与Boosting算法相结合来对数据进行分类。通过实验对比了5种方法在多个公共数据集上的分类效果和分类效率,结果表明该方法具有较高的分类识别率和分类效率。
引用
收藏
页码:249 / 252+267 +267
页数:5
相关论文
共 4 条
[1]   改进型加权KNN算法的不平衡数据集分类 [J].
王超学 ;
潘正茂 ;
马春森 ;
董丽丽 ;
张涛 .
计算机工程, 2012, 38 (20) :160-163+168
[2]   一种新的不平衡数据学习算法PCBoost [J].
李雄飞 ;
李军 ;
董元方 ;
屈成伟 .
计算机学报, 2012, 35 (02) :2202-2209
[3]   非平衡数据集分类问题研究进展 [J].
高嘉伟 ;
梁吉业 .
计算机科学, 2008, (04) :10-13
[4]  
A study of the behavior of several methods for balancing machine learning training data[J] . Gustavo E. A. P. A. Batista,Ronaldo C. Prati,Maria Carolina Monard.ACM SIGKDD Explorations Newsletter . 2004 (1)