一种新的过采样算法DBSMOTE

被引:38
作者
刘余霞 [1 ]
刘三民 [2 ,3 ]
刘涛 [2 ]
王忠群 [4 ]
机构
[1] 安徽工程大学建筑工程学院
[2] 安徽工程大学计算机与信息学院
[3] 南京航空航天大学计算机科学与技术学院
[4] 安徽工程大学管理工程学院
基金
安徽省自然科学基金;
关键词
非平衡数据学习; 过采样; 数据分类;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
针对非平衡数据集中类分布信息不对称现象,提出一种新的过采样算法DBSMOTE(Distance-based Synthetic Minority Over-sampling Technique),通过合成少数类新样本解决样本不足问题。算法基于样本与类中心距离,结合类聚集程度提取种子样本。根据SMOTE(Synthetic Minority Over-sampling Technique)算法思想,在种子样本上实现少数类新样本合成。根据种子样本与少数类中心距离构造新样本分布函数。基于此采样算法并在多个数据集上进行分类实验,结果表明DB SMOTE算法是可行的。
引用
收藏
页码:92 / 95
页数:4
相关论文
共 5 条
[1]
一种基于欠采样的不平衡数据分类算法 [J].
程险峰 ;
李军 ;
李雄飞 .
计算机工程, 2011, 37 (13) :147-149
[2]
针对不平衡数据集的Bagging改进算法 [J].
李明方 ;
张化祥 .
计算机工程与应用 , 2010, (30) :40-42
[3]
一种基于核SMOTE的非平衡数据集分类方法 [J].
曾志强 ;
吴群 ;
廖备水 ;
高济 .
电子学报, 2009, 37 (11) :2489-2495
[4]
Evolutionary rule-based systems for imbalanced data sets [J].
Orriols-Puig, Albert ;
Bernado-Mansilla, Ester .
SOFT COMPUTING, 2009, 13 (03) :213-225
[5]
Class imbalances versus small disjuncts.[J].Taeho Jo;Nathalie Japkowicz.ACM SIGKDD Explorations Newsletter.2004, 1