基于随机下采样和SMOTE的不均衡SVM分类算法

被引:12
作者
朱明 [1 ]
陶新民 [2 ]
机构
[1] 铁力市气象局
[2] 哈尔滨工程大学信息与通信工程学院
基金
中国博士后科学基金;
关键词
不均衡数据; SVM算法; SMOTE算法;
D O I
10.13274/j.cnki.hdzj.2012.01.049
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。
引用
收藏
页码:39 / 43
页数:5
相关论文
共 4 条
[1]   一种基于核SMOTE的非平衡数据集分类方法 [J].
曾志强 ;
吴群 ;
廖备水 ;
高济 .
电子学报, 2009, 37 (11) :2489-2495
[2]   不平衡样本集中SVM的应用综述 [J].
姚程宽 .
计算机应用与软件, 2008, (09) :1-2+29
[3]   不平衡数据分类的研究现状 [J].
林智勇 ;
郝志峰 ;
杨晓伟 .
计算机应用研究, 2008, (02) :332-336
[4]  
The Nature of Statistical Learning Theory. Vapnik VN. Springer-Verlag . 2000