非平衡数据集分类研究

被引:5
作者
吴克寿
曾志强
机构
[1] 厦门理工学院计算机科学与技术系
关键词
非平衡数据集; 上采样; 核学习;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
现实世界中存在着非平衡数据集,即数据集中的一类样本数量远大于另一类。而少数类样本的识别通常是人们首要关心的,将少数类样本误分为多数类要比将多数类样本误分为少数类付出更高的代价。传统的机器学习算法可能会产生偏向多数类的结果,因而对于少数类而言,预测的效果会很差。在对目前国内外非平衡数据集研究现状深入分析的基础上,针对非平衡数据集数据复杂度研究和失衡解决方法研究两个方向相对孤立及缺乏系统性的缺陷,提出了一种非平衡数据集整体解决框架,以满足日益迫切的应用需求。
引用
收藏
页码:39 / 42
页数:4
相关论文
共 9 条
[1]   一种基于核SMOTE的非平衡数据集分类方法 [J].
曾志强 ;
吴群 ;
廖备水 ;
高济 .
电子学报, 2009, 37 (11) :2489-2495
[2]   一种基于混合策略的失衡数据集分类方法 [J].
李鹏 ;
王晓龙 ;
刘远超 ;
王宝勋 .
电子学报, 2007, (11) :2161-2165
[3]   Knowledge discovery from imbalanced and noisy data [J].
Van Hulse, Jason ;
Khoshgoftaar, Taghi .
DATA & KNOWLEDGE ENGINEERING, 2009, 68 (12) :1513-1542
[4]   Evolutionary rule-based systems for imbalanced data sets [J].
Orriols-Puig, Albert ;
Bernado-Mansilla, Ester .
SOFT COMPUTING, 2009, 13 (03) :213-225
[5]  
An information granulation based data mining approach for classifying imbalanced data[J] . Mu-Chen Chen,Long-Sheng Chen,Chun-Chin Hsu,Wei-Rong Zeng.Information Sciences . 2008 (16)
[6]  
On the k -NN performance in a challenging scenario of imbalance and overlapping[J] . V. García,R. A. Mollineda,J. S. Sánchez.Pattern Analysis and Applications . 2008 (3)
[7]   Cost-sensitive boosting for classification of imbalanced data [J].
Sun, Yamnin ;
Kamel, Mohamed S. ;
Wong, Andrew K. C. ;
Wang, Yang .
PATTERN RECOGNITION, 2007, 40 (12) :3358-3378
[8]  
Editorial[J] . Nitesh V. Chawla,Nathalie Japkowicz,Aleksander Kotcz.ACM SIGKDD Explorations Newsletter . 2004 (1)
[9]  
Evaluation of Outlier De-tection Schemes for Detecting Network Intrusions. Lazarevic A,Ertoz L,Ozgur A,et al. Third SIAM International Conference on Data Mining . 2003