基于二次随机森林的不平衡数据分类算法

被引:11
作者
刘学 [1 ]
张素伟 [2 ]
机构
[1] 华北计算技术研究所
[2] 太极计算机股份有限公司
关键词
模式识别; 不平衡数据; 随机森林; 模糊边界;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
140502 [人工智能];
摘要
不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高。
引用
收藏
页码:75 / 79
页数:5
相关论文
共 5 条
[1]
多核SVM文本分类研究 [J].
陈海红 .
软件, 2015, 36 (05) :7-10
[2]
随机森林与支持向量机分类性能比较 [J].
黄衍 ;
查伟雄 .
软件, 2012, 33 (06) :107-110
[3]
不平衡数据集的分类方法研究 [J].
王和勇 ;
樊泓坤 ;
姚正安 ;
李成安 .
计算机应用研究, 2008, (05) :1301-1303+1308
[4]
Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[5]
Machine Learning for the Detection of Oil Spills in Satellite Radar Images [J].
Miroslav Kubat ;
Robert C. Holte ;
Stan Matwin .
Machine Learning, 1998, 30 :195-215