基于ROC的分类算法评价方法

被引:0
作者
骆名剑
机构
[1] 武汉科技大学
关键词
分类算法; 受试者工作特征(ROC); 代价敏感学习; 纠错输出码;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
分类学习是机器学习的主要分支,分类算法的学习能力通常用正确率来衡量。但是当数据类别分布不平衡或分类错误代价不相等时,正确率并不能保证分类算法总体错误代价最小。ROC(Receiver Operating Characteristic,受试者工作特征)分析技术衡量了数据类别在任何分布或任何错误代价下分类算法的总体性能。由于对类别分布比例和错误代价的不敏感性,使得ROC曲线在类别分布未知的领域和代价敏感学习中变得越来越重要。 针对ROC曲线只能适用于二类别数据集的不足,本文较全面的分析和总结了目前多类别ROC分析技术,并在其基础上提出了EMAUC分析方法。这种方法采用纠错输出码将多类别问题转化为二类别问题逐个处理。相对于其它的多类ROC方法,它具有计算复杂度低、可理解性强、与多类别数据分布无关等优点。本文在机器学习平台WEKA和ROCon的基础上实现了EMAUC方法,并在大量数据集上进行了实验,结果表明该分析方法可以有效的评价和比较分类学习算法。
引用
收藏
页数:76
共 8 条
[1]
Learning in the “Real World” [J].
Lorenza Saitta ;
Filippo Neri .
Machine Learning, 1998, 30 :133-163
[2]
Adaptive fraud detection [J].
Fawcett, T ;
Provost, F .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (03) :291-316
[3]
Induction of decision trees.[J].J. R. Quinlan.Machine Learning.1986, 1
[4]
支持向量机在多类分类问题中的推广 [J].
刘志刚 ;
李德仁 ;
秦前清 ;
史文中 ;
不详 .
计算机工程与应用 , 2004, (07) :10-13+65
[5]
机器学习研究 [J].
王珏 ;
石纯一 .
广西师范大学学报(自然科学版), 2003, (02) :1-15
[6]
基于SVM的二叉树多类分类算法及其在故障诊断中的应用 [J].
马笑潇 ;
黄席樾 ;
柴毅 ;
不详 .
控制与决策 , 2003, (03) :272-276+284
[7]
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,
[8]
统计学习理论的本质.[M].(美)VladimirN.Vapnik著;张学工译;.清华大学出版社.2000,