基于改进SMOTE的非平衡数据集分类研究

被引:51
作者
王超学 [1 ]
潘正茂 [1 ]
董丽丽 [1 ]
马春森 [2 ]
张星 [1 ]
机构
[1] 西安建筑科技大学信息与控制工程学院
[2] 中国农业科学院植物保护研究所
关键词
非平衡数据集; 分类; 支持度; 轮盘赌选择; 合成少数过采样技术(SMOTE);
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。
引用
收藏
页码:184 / 187+245 +245
页数:5
相关论文
共 7 条
[1]
基于聚类融合的不平衡数据分类方法 [J].
陈思 ;
郭躬德 ;
陈黎飞 .
模式识别与人工智能, 2010, 23 (06) :772-780
[2]
针对不平衡数据集的Bagging改进算法 [J].
李明方 ;
张化祥 .
计算机工程与应用 , 2010, (30) :40-42
[3]
基于级联结构的不平衡数据集分类研究 [J].
王晓芹 ;
张化祥 ;
柴青 .
计算机工程与应用 , 2010, (13) :115-117+126
[4]
kNN文本分类器类偏斜问题的一种处理对策 [J].
郝秀兰 ;
陶晓鹏 ;
徐和祥 ;
胡运发 .
计算机研究与发展, 2009, (01) :52-61
[5]
不平衡数据集分类的Random-SMOTE方法研究 [D]. 
董燕杰 .
大连理工大学,
2009
[6]
A multi-objective optimisation approach for class imbalance learning[J] Paolo Soda Pattern Recognition 2011,
[7]
Knowledge discovery from imbalanced and noisy data[J] Jason Van Hulse;Taghi Khoshgoftaar Data & Knowledge Engineering 2009,