一种基于级联模型的类别不平衡数据分类方法

被引:25
作者
刘胥影 [1 ]
吴建鑫 [2 ]
周志华 [1 ]
机构
[1] 南京大学软件新技术国家重点实验室
[2] 佐治亚理工学院计算机学院
基金
国家杰出青年科学基金;
关键词
机器学习; 数据挖掘; 类别不平衡; 级联; 集成学习;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.
引用
收藏
页码:148 / 155
页数:8
相关论文
共 2 条
[1]   神经网络集成在肺癌细胞识别中的应用 [J].
姜远 ;
周志华 ;
谢琪 ;
陈兆乾 .
南京大学学报(自然科学版), 2001, (05) :529-534
[2]  
Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J] . Miroslav Kubat,Robert C. Holte,Stan Matwin.Machine Learning . 1998 (2)