一种新的不平衡数据学习算法PCBoost

被引:63
作者
李雄飞 [1 ]
李军 [1 ,2 ]
董元方 [1 ,3 ]
屈成伟 [1 ]
机构
[1] 吉林大学符号计算与知识工程教育部重点实验室
[2] 长春理工大学应用数学系
[3] 长春理工大学经济管理学院
关键词
数据挖掘; 不平衡数据; 集成学习; 提升; 扰动;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正"扰动",删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.
引用
收藏
页码:2202 / 2209
页数:8
相关论文
共 8 条
[1]   代价敏感分类器的比较研究(英文) [J].
凌晓峰 ;
SHENG Victor S. .
计算机学报, 2007, (08) :1203-1211
[2]   Cost-sensitive boosting for classification of imbalanced data [J].
Sun, Yamnin ;
Kamel, Mohamed S. ;
Wong, Andrew K. C. ;
Wang, Yang .
PATTERN RECOGNITION, 2007, 40 (12) :3358-3378
[3]  
Editorial[J] . Nitesh V. Chawla,Nathalie Japkowicz,Aleksander Kotcz.ACM SIGKDD Explorations Newsletter . 2004 (1)
[4]  
Learning from imbalanced data sets with boosting and data generation[J] . Hongyu Guo,Herna L. Viktor.ACM SIGKDD Explorations Newsletter . 2004 (1)
[5]   Improved boosting algorithms using confidence-rated predictions [J].
Schapire, RE ;
Singer, Y .
MACHINE LEARNING, 1999, 37 (03) :297-336
[6]   A decision-theoretic generalization of on-line learning and an application to boosting [J].
Freund, Y ;
Schapire, RE .
JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 1997, 55 (01) :119-139
[7]  
Learning on the border:active learning in imbalanced data classification .2 Ertekin S,Huang J,Bottou L,et al. Proceedings of the ACM Conference on Information and Knowledge Management . 2007
[8]  
RUSBoost:Improving classification performance when train-ing data is skewed .2 Seiffert C,Khoshgoftaar T M,Hulse J V,Napolitano A. Proceedings of the 19th IEEE Interna-tional Conference on Pattern Recognition . 2008