不平衡数据分类的混合算法

被引:40
作者
韩敏
朱新荣
机构
[1] 大连理工大学电子信息与电气工程学部
关键词
不平衡数据; 随机森林; 径向基函数神经网络; 受试者特征曲线;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
140502 [人工智能];
摘要
针对传统分类算法处理不平衡数据时,小类的分类精度过低问题,提出一种径向基函数神经网络和随机森林集成的混合分类算法.在小类样本之间用随机插值方式平衡数据集的分布,利用受试者特征曲线在置信度为95%下的面积为标准去除冗余特征;之后对输入数据用Bagging技术进行扰动,并以径向基函数神经网络作为随机森林中的基分类器,采用绝大多数投票方法进行决策的融合和输出.将该算法应用于UCI数据,以G均值和受试者特征曲线下的面积为评判标准,结果表明该方法能够有效地提高中度和高度不平衡数据的分类精度.
引用
收藏
页码:1485 / 1489
页数:5
相关论文
共 5 条
[1]
On the influence of an adaptive inference system in fuzzy rule based classification systems for imbalanced data-sets [J].
Fernandez, Alberto ;
Jose del Jesus, Maria ;
Herrera, Francisco .
EXPERT SYSTEMS WITH APPLICATIONS, 2009, 36 (06) :9805-9812
[2]
On strategies for imbalanced text classification using SVM: A comparative study [J].
Sun, Aixin ;
Lim, Ee-Peng ;
Liu, Ying .
DECISION SUPPORT SYSTEMS, 2009, 48 (01) :191-201
[3]
Machine Learning for the Detection of Oil Spills in Satellite Radar Images [J].
Miroslav Kubat ;
Robert C. Holte ;
Stan Matwin .
Machine Learning, 1998, 30 :195-215
[4]
一种用于不平衡数据分类的改进AdaBoost算法 [J].
郭乔进 ;
李立斌 ;
李宁 .
计算机工程与应用, 2008, (21) :217-221
[5]
乳腺癌普查资料的分析 [J].
朱卫 ;
沈玉琨 .
疾病控制杂志, 2002, (03) :253-254