基于聚类融合的不平衡数据分类方法

被引:26
作者
陈思
郭躬德
陈黎飞
机构
[1] 福建师范大学数学与计算机科学学院
[2] 福建师范大学网络安全与密码技术重点实验室
关键词
不平衡数据; 聚类融合; 过抽样; 欠抽样;
D O I
10.16451/j.cnki.issn1003-6059.2010.06.006
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
不平衡数据分类问题目前已成为数据挖掘和机器学习的研究热点.文中提出一类基于聚类融合的不平衡数据分类方法,旨在解决传统分类方法对少数类的识别率较低的问题.该方法通过引入"聚类一致性系数"找出处于少数类边界区域和处于多数类中心区域的样本,并分别使用改进的SMOTE过抽样方法和改进的随机欠抽样方法对训练集的少数类和多数类进行不同的处理,以改善不同类数据的平衡度,为分类算法提供更好的训练平台.通过实验对比8种方法在一些公共数据集上的分类性能,结果表明该方法对少数类和多数类均具有较高的识别率.
引用
收藏
页码:772 / 780
页数:9
相关论文
共 6 条
[1]  
Evolutionary Undersampling for Classification with Imbalanced Datasets: Proposals and Taxonomy[J] . Salvador Garc&iacute,a,Francisco Herrera.Evolutionary Computation . 2009 (3)
[2]   Clusterer ensemble [J].
Zhou, ZH ;
Tang, W .
KNOWLEDGE-BASED SYSTEMS, 2006, 19 (01) :77-83
[3]  
A study of the behavior of several methods for balancing machine learning training data[J] . Gustavo E. A. P. A. Batista,Ronaldo C. Prati,Maria Carolina Monard.ACM SIGKDD Explorations Newsletter . 2004 (1)
[4]  
Learning from imbalanced data sets with boosting and data generation[J] . Hongyu Guo,Herna L. Viktor.ACM SIGKDD Explorations Newsletter . 2004 (1)
[5]  
Mixture of expert agents forhandling imbalanced data sets .2 Kotsiantis S B,Pintelas P E. Annals of Mathematics,Computing & Teleinformatics . 2003
[6]  
Feature Bagging for Outlier Detection .2 A. Lazarevic,V. Kumar. Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining .