若干评价准则对不平衡数据学习的影响

被引:23
作者
林智勇 [1 ]
郝志峰 [2 ]
杨晓伟 [3 ]
机构
[1] 华南理工大学计算机科学与工程学院
[2] 广东工业大学应用数学学院
[3] 华南理工大学理学院
关键词
评价准则; 不平衡数据学习; 支持向量机; GAF准则; GBF准则;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
为解决绝大部分传统的以精度准则为优化目标而获得的分类器不适于不平衡数据学习(IDL)的问题,文中通过在支持向量机(SVM)模型上进行"元学习",研究了精度、平衡精度、几何平均、F1得分、信息增益、AUC(ROC曲线下方图面积)以及文中新提出的GAF和GBF等评价准则对IDL的影响.在16个来自UCI的不平衡数据集上进行了仿真实验.对实验结果的统计分析表明:不同准则对分类器性能的影响有显著差异;即便是对于先进的学习方法支持向量机(SVM)而言,若以精度准则最大化选择分类器,那么得到的SVM分类器也容易偏向预测多类;通过在其他准则上优化,能输出纠偏了的SVM分类器,它们的整体性能更好,尤其是在预测少类能力方面;在GAF以及GBF准则上优化所得的SVM分类器具有稳定且良好的性能.
引用
收藏
页码:147 / 155
页数:9
相关论文
共 3 条
[1]   应用统计方法综合评估核函数分类能力的研究 [J].
王泳 ;
胡包钢 .
计算机学报, 2008, (06) :942-952
[2]  
Editorial[J] . Nitesh V. Chawla,Nathalie Japkowicz,Aleksander Kotcz.ACM SIGKDD Explorations Newsletter . 2004 (1)
[3]  
Beyond accura-cy,F-score and ROC:a family of discriminant measuresfor performance evaluation. Sokolova M,Japkowicz N,Szpakowicz S. Proceedings of the 2006Australian Joint Conference on Artificial Intelligence(AI2006) . 2006