基于样本权重的不平衡数据欠抽样方法

被引:43
作者
熊冰妍
王国胤
邓维斌
机构
[1] 重庆邮电大学计算智能重庆市重点实验室
关键词
不平衡数据; 欠抽样; 样本权重; 聚类; 集成学习;
D O I
暂无
中图分类号
O212.2 [抽样理论、频率分布];
学科分类号
020208 ; 070103 ; 0714 ;
摘要
现实世界中广泛存在不平衡数据,其分类问题是数据挖掘和机器学习的一个研究热点.欠抽样是处理不平衡数据集的一种常用方法,其主要思想是选取多数类样本中的一个子集,使数据集的样本分布达到平衡,但其容易忽略多数类中部分有用信息.为此提出了一种基于样本权重的欠抽样方法KAcBag(K-means AdaCost bagging),该方法引入了样本权重来反映样本所处的区域,首先根据各类样本的数量初始化各样本权重,并通过多次聚类对各个样本的权重进行修改,权重小的多数类样本即处于多数类的中心区域;然后按权重大小对多数类样本进行欠抽样,使位于中心区域的样本较容易被抽中,并与所有少数类样本组成bagging成员分类器的训练数据,得到若干个决策树子分类器;最后根据各子分类器的正确率进行加权投票生成预测模型.对19组UCI数据集和某电信运营商客户换机数据进行了测试实验,实验结果表明:KAcBag方法使抽样所得的样本具有较强的代表性,能有效提高少数类的分类性能并缩小问题规模.
引用
收藏
页码:2613 / 2622
页数:10
相关论文
共 10 条
[1]   基于聚类融合的不平衡数据分类方法 [J].
陈思 ;
郭躬德 ;
陈黎飞 .
模式识别与人工智能, 2010, 23 (06) :772-780
[2]  
Neighbourhood sampling in bagging for imbalanced data[J] . Jerzy B?aszczyński,Jerzy Stefanowski.Neurocomputing . 2014
[3]  
ACOSampling: An ant colony optimization-based undersampling method for classifying imbalanced DNA microarray data[J] . Hualong Yu,Jun Ni,Jing Zhao.Neurocomputing . 2013
[4]  
Decision tree classifiers sensitive to heterogeneous costs[J] . Shichao Zhang.The Journal of Systems & Software . 2011 (4)
[5]  
Dynamic classifier ensemble model for customer classification with imbalanced class distribution[J] . Jin Xiao,Ling Xie,Changzheng He,Xiaoyi Jiang.Expert Systems With Applications . 2011 (3)
[6]  
Cluster-based under-sampling approaches for imbalanced data distributions[J] . Show-Jane Yen,Yue-Shi Lee.Expert Systems With Applications . 2008 (3)
[7]  
Knowledge acquisition through information granulation for imbalanced data[J] . Chao-Ton Su,Long-Sheng Chen,Yuehwern Yih.Expert Systems With Applications . 2005 (3)
[8]   A decision-theoretic generalization of on-line learning and an application to boosting [J].
Freund, Y ;
Schapire, RE .
JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 1997, 55 (01) :119-139
[9]   Bagging predictors [J].
Breiman, L .
MACHINE LEARNING, 1996, 24 (02) :123-140
[10]  
Adacost: Misclassification Cost-Sensitive Boosting .2 Fan W,Stolfo S J,Zhang J,et al. Proceedings of the 6th International Machine Learning Conference . 1999