一种处理非平衡数据集的优化随机森林分类方法

被引:26
作者
马海荣 [1 ]
程新文 [2 ]
机构
[1] 湖北省农业科学院农业经济技术研究所
[2] 中国地质大学(武汉)信息工程学院
关键词
随机森林; 最大投票熵; 广义欧几里得距离; 不平衡数据集;
D O I
10.19304/j.cnki.issn1000-7180.2018.11.006
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
利用传统随机森林(random forest,RF)模型进行分类时存在分类精度受不平衡样本集的影响,以及投票平局现象会导致算法停滞等问题.本文对RF模型进行了优化改进,首先随机抽取等量的少数类与多数类样本构建训练样本集进行RF建模,然后根据投票熵与基于样本特征参数的广义欧几里得距离逐步添加具有最大投票熵的样本到训练样本集,解决传统RF模型随机抽取样本时训练样本集中包含不同类别样本数不平衡问题.对于分类过程中可能出现投票结果的平局现象,利用测试样本与邻近训练样本的广义欧几里得距离决定其分类结果,以消除投票平局现象造成的停滞问题.实验结果表明,本文优化RF模型对于非平衡数据集的分类可以取得较好的分类结果.
引用
收藏
页码:28 / 32
页数:5
相关论文
共 12 条
[1]
关于非平衡数据特征问题的研究 [D]. 
尹留志 .
中国科学技术大学,
2014
[2]
随机森林算法优化研究 [D]. 
曹正凤 .
首都经济贸易大学,
2014
[3]
Combining Random Forests and object-oriented analysis for landslide mapping from very high resolution imagery.[J].André Stumpf;Norman Kerle.Procedia Environmental Sciences.2011,
[4]
Object-oriented analysis of multi-temporal panchromatic images for creation of historical landslide inventories.[J].Tapas R. Martha;Norman Kerle;Cees J. van Westen;Victor Jetten;K. Vinod Kumar.ISPRS Journal of Photogrammetry and Remote Sensing.2011,
[5]
Mining with rarity.[J].Gary M. Weiss.ACM SIGKDD Explorations Newsletter.2004, 1
[6]
Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[7]
一种处理不平衡大数据的并行随机森林算法 [J].
秦静 ;
钱雪忠 ;
王卫涛 ;
谢国伟 ;
宋威 .
微电子学与计算机, 2017, 34 (04) :22-27
[8]
一种改进的基于随机森林的快速人眼定位方法 [J].
马越 ;
贺光辉 .
微电子学与计算机, 2016, 33 (07) :1-4+10
[9]
基于可见光光谱和随机森林算法的冬小麦冠层图像分割.[J].刘亚东;崔日鲜;.光谱学与光谱分析.2015, 12
[10]
一种用于非平衡数据分类的集成学习模型 [J].
焦盛岚 ;
杨炳儒 ;
翟云 ;
赵万里 .
计算机工程与应用, 2012, 48 (29) :119-123+219