基于一趟聚类的不平衡数据下抽样算法

被引:12
作者
蒋盛益 [1 ]
苗邦 [1 ]
余雯 [2 ]
机构
[1] 广东外语外贸大学信息学院
[2] 广东外语外贸大学国际工商管理学院
基金
广东省自然科学基金;
关键词
不平衡数据; 一趟聚类; 下抽样;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.
引用
收藏
页码:232 / 236
页数:5
相关论文
共 2 条
[1]   Chameleon算法的改进 [J].
蒋盛益 ;
庞观松 ;
张黎莎 .
小型微型计算机系统, 2010, 31 (08) :1643-1646
[2]  
A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Ester M, Kriegel HP, Sander J, Xu X. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining . 1996