多类类别不平衡学习算法:EasyEnsemble.M

被引:57
作者
李倩倩 [1 ]
刘胥影 [1 ,2 ]
机构
[1] 东南大学计算机科学与工程学院计算机网络和信息集成教育部重点实验室
[2] 南京大学计算机软件新技术国家重点实验室
基金
高等学校博士学科点专项科研基金;
关键词
机器学习; 类别不平衡学习; 欠采样; 集成;
D O I
10.16451/j.cnki.issn1003-6059.2014.02.013
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
随机欠采样方法忽略潜在有用的大类样本信息,在面对多类分类问题时更为突出.文中提出多类类别不平衡学习算法:EasyEnsemble.M.该算法通过多次针对大类样本随机采样,充分利用被随机欠采样方法忽略的潜在有用的大类样本,学习多个子分类器,利用混合的集成技术最终得到性能较优的强分类器.实验结果表明,与常用的多类类别不平衡学习算法相比,EasyEnsemble.M可有效提高分类器的G-mean值.
引用
收藏
页码:187 / 192
页数:6
相关论文
共 4 条
[1]
不平衡分类问题研究综述 [J].
叶志飞 ;
文益民 ;
吕宝粮 .
智能系统学报, 2009, 4 (02) :148-156
[2]
Classification of weld flaws with imbalanced class data.[J].T. Warren Liao.Expert Systems With Applications.2007, 3
[3]
The use of the area under the roc curve in the evaluation of machine learning algorithms [J].
Bradley, AP .
PATTERN RECOGNITION, 1997, 30 (07) :1145-1159
[4]
A decision-theoretic generalization of on-line learning and an application to boosting [J].
Freund, Y ;
Schapire, RE .
JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 1997, 55 (01) :119-139