基于数据密度分布的欠采样方法研究

被引:48
作者
杨杰明
闫欣
曲朝阳
宋晨晨
乔媛媛
机构
[1] 东北电力大学信息工程学院
关键词
不平衡数据; 数据密度; 欠采样; 分布;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
针对传统欠采样方法对不平衡数据集重采样时容易丢失多数类样本信息的问题,提出一种基于数据密度分布的欠采样方法 US-DD。该方法引入数据密度的概念,并以此概念为依据将数据划分为高密度数据簇和低密度数据簇,高密度数据簇数据高度集中,低密度数据簇数据稀疏松散,两种不同数据簇对分类的意义也不同,因此可以针对不同密度的数据簇执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取六组UCI数据集,采用C4.5决策树、支持向量机作为分类器,将US-DD与随机欠采样、KNN-Near Miss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。
引用
收藏
页码:2997 / 3000
页数:4
相关论文
共 9 条
[1]
基于相对贡献率的特征选择方法 [J].
杨杰明 ;
王静 ;
曲朝阳 .
东北电力大学学报, 2014, 34 (04) :62-68
[2]
不平衡分类问题研究综述 [J].
叶志飞 ;
文益民 ;
吕宝粮 .
智能系统学报, 2009, 4 (02) :148-156
[3]
On the use of MapReduce for imbalanced big data using Random Forest.[J].Sara del Río;Victoria López;José Manuel Benítez;Francisco Herrera.Information Sciences.2014,
[4]
Inverse random under sampling for class imbalance problem and its application to multi-label classification [J].
Tahir, Muhammad Atif ;
Kittler, Josef ;
Yan, Fei .
PATTERN RECOGNITION, 2012, 45 (10) :3738-3750
[5]
Multilabel classification using heterogeneous ensemble of multi-label classifiers.[J].Muhammad Atif Tahir;Josef Kittler;Ahmed Bouridane.Pattern Recognition Letters.2011, 5
[6]
DBSMOTE: Density-Based Synthetic Minority Over-sampling TEchnique [J].
Bunkhumpornpat, Chumphol ;
Sinapiromsaran, Krung ;
Lursinsap, Chidchanok .
APPLIED INTELLIGENCE, 2012, 36 (03) :664-684
[7]
Comparing alternative classifiers for database marketing: The case of imbalanced datasets [J].
Duman, Ekrem ;
Ekinci, Yeliz ;
Tanriverdi, Aydin .
EXPERT SYSTEMS WITH APPLICATIONS, 2012, 39 (01) :48-53
[8]
Rough-DBSCAN: A fast hybrid density based clustering method for large data sets [J].
Viswanath, P. ;
Babu, V. Suresh .
PATTERN RECOGNITION LETTERS, 2009, 30 (16) :1477-1488
[9]
Hierarchical fuzzy rule based classification systems with genetic rule selection for imbalanced data-sets.[J].Alberto Fernández;María José del Jesus;Francisco Herrera.International Journal of Approximate Reasoning.2008, 3