非平衡数据训练方法概述

被引:10
作者
张琦
吴斌
王柏
机构
[1] 北京邮电大学计算机科学与技术学院通信软件工程中心
关键词
非平衡数据; 小析取项; 元学习;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
现实世界中数据分类的应用通常会遇到数据非平衡的问题,即数据中的一类样本在数量上远多于另一类,例如欺诈检测和文本分类问题等。其中少数类的样本通常具有巨大的影响力和价值,是我们主要关心的对象,称为正类,另一类则称为负类。正类样本与负类样本可能数量上相差极大,这给训练非平衡数据提出了挑战。传统机器训练算法可能会产生偏向多数类的结果,因而对于正类来说,预测的性能可能会很差。本文分析了导致非平衡数据分类性能差的多方面原因,并针对这些原因列出了多种解决方法。
引用
收藏
页码:181 / 186
页数:6
相关论文
共 2 条
[1]  
Data mining from Extreme Data Sets.Very Large and/or Very Skewed Data Sets.Computer Vision and Pattern Recognition, 2004. CVPR 2004. In: Proc. of the 2004 IEEE Computer Society Conf. Huang Kaizhu,Yang Haiqin,King I,Lyu M R. on . 2004
[2]  
Learning Classifiers from Imbalanced Data Based on Biased Minimax Probability Machine, Computer Vision and Pattern Recognition, 2004.CVPR 2004. Proc. of the 2004 IEEE Computer Society Conf. Huang K,et al. on . 2004