基于KM-SMOTE和随机森林的不平衡数据分类

被引:21
作者
陈斌
苏一丹
黄山
机构
[1] 广西大学计算机与电子信息学院
关键词
K-means; SMOTE算法; 随机森林; 不平衡数据集;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
基于SMOTE算法的随机森林能够很好地处理不平衡数据集的分类,是一种通过对数据进行改造以达到良好分类要求的分类器。但SMOTE算法在处理不平衡数据后,可能会导致不平衡数据集分布的整体变化以及模糊正负类边界。这两个缺陷极易导致平衡后的数据与原始数据集有很大差异,从而使分类结果有提高但仍旧不够理想。K-means算法能够有效地聚类,并达到对数据分布的描述。在此基础上,结合K-means算法与SMOTE算法,利用两者优点,文中提出了一种基于K-means的KM-SMOTE算法,有效地解决了上述两个问题。并用于随机森林分类器进行实验,结果表明,改进后的算法分类效果更加明显。
引用
收藏
页码:17 / 21
页数:5
相关论文
共 8 条
[1]   基于SMOTE和随机森林的Web spam检测 [J].
房晓南 ;
张化祥 ;
高爽 .
山东大学学报(工学版), 2013, 43 (01) :22-27+33
[2]   一种新的快速特征选择和数据分类方法 [J].
陈铁明 ;
马继霞 ;
Samuel HHuang ;
蔡家楣 .
计算机研究与发展, 2012, (04) :735-745
[3]   非平衡数据集分类研究 [J].
吴克寿 ;
曾志强 .
计算机技术与发展, 2011, 21 (09) :39-42
[4]   一种基于核SMOTE的非平衡数据集分类方法 [J].
曾志强 ;
吴群 ;
廖备水 ;
高济 .
电子学报, 2009, 37 (11) :2489-2495
[5]   数据挖掘中的数据分类算法综述 [J].
刘红岩 ;
陈剑 ;
陈国青 .
清华大学学报(自然科学版), 2002, (06) :727-730
[6]  
随机森林算法优化研究.[D].曹正凤.首都经济贸易大学.2014, 08
[7]  
Mining data with random forests: A survey and results of new tests.[J].A. Verikas;A. Gelzinis;M. Bacauskiene.Pattern Recognition.2010, 2
[8]   Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32