基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法

被引:34
作者
霍玉丹 [1 ,2 ]
谷琼 [1 ,3 ]
蔡之华 [2 ]
袁磊 [1 ]
机构
[1] 湖北文理学院数学与计算机科学学院
[2] 中国地质大学计算机学院
[3] 西南大学逻辑与智能研究中心
基金
中国博士后科学基金;
关键词
非平衡数据集; 分类; 少数类样本合成过采样技术; 采样倍率; 遗传算法;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
140502 [人工智能];
摘要
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。
引用
收藏
页码:121 / 124+139 +139
页数:5
相关论文
共 8 条
[1]
A multi-objective optimisation approach for class imbalance learning [J].
Soda, Paolo .
PATTERN RECOGNITION, 2011, 44 (08) :1801-1810
[2]
Knowledge acquisition through information granulation for imbalanced data.[J].Chao-Ton Su;Long-Sheng Chen;Yuehwern Yih.Expert Systems With Applications.2005, 3
[3]
Learning from imbalanced data sets with boosting and data generation.[J].Hongyu Guo;Herna L. Viktor.ACM SIGKDD Explorations Newsletter.2004, 1
[4]
一种新的不平衡数据学习算法PCBoost [J].
李雄飞 ;
李军 ;
董元方 ;
屈成伟 .
计算机学报, 2012, 35 (02) :2202-2209
[5]
基于改进SMOTE的非平衡数据集分类研究 [J].
王超学 ;
潘正茂 ;
董丽丽 ;
马春森 ;
张星 .
计算机工程与应用, 2013, (02) :184-187+245
[6]
基于非均衡数据集的代价敏感学习算法比较研究 [J].
谷琼 ;
袁磊 ;
熊启军 ;
宁彬 ;
李文新 .
微电子学与计算机, 2011, 28 (08) :146-149+153
[7]
基于聚类融合的不平衡数据分类方法 [J].
陈思 ;
郭躬德 ;
陈黎飞 .
模式识别与人工智能, 2010, 23 (06) :772-780
[8]
遗传算法研究综述 [J].
葛继科 ;
邱玉辉 ;
吴春明 ;
蒲国林 .
计算机应用研究, 2008, (10) :2911-2916