不平衡数据分类方法综述

被引:27
作者
杨明
尹军梅
吉根林
机构
[1] 南京师范大学数学与计算机科学学院
关键词
不平衡数据; 过抽样; 欠抽样; 代价敏感; 单分类器; 特征选择; 子空间;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望.
引用
收藏
页码:7 / 12
页数:6
相关论文
共 9 条
  • [1] 一种面向单个正例的Fisher线性判别分类方法
    尹军梅
    杨明
    [J]. 南京师范大学学报(工程技术版), 2008, (03) : 61 - 65
  • [2] 非平衡数据集Fisher线性判别模型
    谢纪刚
    裘正定
    [J]. 北京交通大学学报, 2006, (05) : 15 - 18
  • [3] Cost-sensitive boosting for classification of imbalanced data
    Sun, Yamnin
    Kamel, Mohamed S.
    Wong, Andrew K. C.
    Wang, Yang
    [J]. PATTERN RECOGNITION, 2007, 40 (12) : 3358 - 3378
  • [4] Classification by ensembles from random partitions of high-dimensional data
    Ahn, Hongshik
    Moon, Hojin
    Fazzari, Melissa J.
    Lim, Noha
    Chen, James J.
    Kodell, Ralph L.
    [J]. COMPUTATIONAL STATISTICS & DATA ANALYSIS, 2007, 51 (12) : 6166 - 6179
  • [5] Improved boosting algorithms using confidence-rated predictions
    Schapire, RE
    Singer, Y
    [J]. MACHINE LEARNING, 1999, 37 (03) : 297 - 336
  • [6] The use of the area under the roc curve in the evaluation of machine learning algorithms
    Bradley, AP
    [J]. PATTERN RECOGNITION, 1997, 30 (07) : 1145 - 1159
  • [7] Training cost-sensitive neural networkswith methods addressing the class imbalance problem .2 ZHOUZhi-hua,LIUXu-ying. IEEETrans on Knowledge and Data Engineering . 2006
  • [8] Cost-sensitive boosting for classification of imbalanced data .2 Sun Y. University of Waterloo . 2007
  • [9] Feature Selection and Classifier Ensembles: A Study on Hyperspectral Remote Sensing Data .2 ShiXin Yu. The University of Antwerp . 2003