一种基于聚类融合欠抽样的不平衡数据分类方法

被引:19
作者
张枭山 [1 ]
罗强 [2 ]
机构
[1] 重庆邮电大学计算机科学与技术学院
[2] 重庆邮电大学移通学院计算机系
关键词
机器学习; 不平衡数据; 聚类融合; 欠抽样; 集成学习;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
140502 [人工智能];
摘要
在面对现实中广泛存在的不平衡数据分类问题时,大多数传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。
引用
收藏
页码:63 / 66
页数:4
相关论文
共 8 条
[1]
一种新的过采样算法DBSMOTE [J].
刘余霞 ;
刘三民 ;
刘涛 ;
王忠群 .
计算机工程与应用, 2014, 50 (06) :92-95
[2]
一种新的不平衡数据学习算法PCBoost [J].
李雄飞 ;
李军 ;
董元方 ;
屈成伟 .
计算机学报, 2012, 35 (02) :2202-2209
[3]
一种基于欠采样的不平衡数据分类算法 [J].
程险峰 ;
李军 ;
李雄飞 .
计算机工程, 2011, 37 (13) :147-149
[4]
Cluster-based under-sampling approaches for imbalanced data distributions.[J].Show-Jane Yen;Yue-Shi Lee.Expert Systems With Applications.2008, 3
[5]
Cost-sensitive boosting for classification of imbalanced data [J].
Sun, Yamnin ;
Kamel, Mohamed S. ;
Wong, Andrew K. C. ;
Wang, Yang .
PATTERN RECOGNITION, 2007, 40 (12) :3358-3378
[6]
Moderate diversity for better cluster ensembles.[J].Stefan T. Hadjitodorov;Ludmila I. Kuncheva;Ludmila P. Todorova.Information Fusion.2005, 3
[7]
Machine Learning for the Detection of Oil Spills in Satellite Radar Images [J].
Miroslav Kubat ;
Robert C. Holte ;
Stan Matwin .
Machine Learning, 1998, 30 :195-215
[8]
A decision-theoretic generalization of on-line learning and an application to boosting [J].
Freund, Y ;
Schapire, RE .
JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 1997, 55 (01) :119-139