分类器性能评价研究

被引:0
作者
武婷婷
机构
[1] 北京交通大学
关键词
分类; 分类器; 贝叶斯网络; 偏差; 方差;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
数据挖掘是研究从大量数据中用非平凡的方法发现有用知识的理论与方法.分类作为数据挖掘的一个重要课题,在统计学、机器学习、神经网络和专家系统中得到了广泛的研究.分类器性能评价作为分类过程的一个重要环节,对于选择适当的分类器进行分类有非常重要的指导作用. 本文首先介绍了数据挖掘及分类的相关概念及基本技术,随后对分类器性能评价的通用标准以及评价方式作出详尽的总结归纳,然后对Weka环境下的分类器性能评价的实现,以及评价的各项指标的数学意义作出分析.最后,本文就分类器性能评价标准中的误差一项,结合限制性贝叶斯分类器的特质,提出一种基于限制性贝叶斯分类器的误差分解方法.这种方法在0-1损失函数的偏差方差分解方法基础上,将限制性贝叶斯的预测概率引入到其误差分解过程中.这种方法下,分类器的误差被分解为偏差和方差两部分,偏差反映的是学习算法的平均预测与真实值之间的偏离程度,方差反映的是学习算法在不同数据集上的预测波动. 为了说明该算法的作用,本文对三种限制性贝叶斯分类算法在9个UCI数据集进行了实验,实验结果表明TAN分类器的性能最优.在本文的误差分解方法下,可清楚看到三种限制性贝叶斯分类器的误差结构,以及TAN最优的重要原因.
引用
收藏
页数:84
共 16 条
[1]
不平衡分类问题研究综述 [J].
叶志飞 ;
文益民 ;
吕宝粮 .
智能系统学报, 2009, 4 (02) :148-156
[2]
基于代价信息的二类分类器性能评估方法 [J].
姜鹏 ;
秦锋 ;
罗慧 .
计算机技术与发展, 2008, 18 (12) :63-66
[3]
基于预测能力的贝叶斯网络分类器学习 [J].
张剑飞 ;
王辉 ;
王双成 .
计算机应用研究, 2007, (08) :50-52
[4]
用于数据挖掘的TAN分类器的研究与应用 [J].
孙笑微 ;
赵大宇 ;
李晓毅 ;
唐恒永 .
计算机技术与发展, 2006, (11) :140-142
[5]
分类器性能评价标准研究 [J].
秦锋 ;
杨波 ;
程泽凯 .
计算机技术与发展, 2006, (10) :85-88
[6]
数据挖掘中分类算法综述 [J].
罗可 ;
林睦纲 ;
郗东妹 .
计算机工程, 2005, (01) :3-5+11
[7]
文本分类器准确性评估方法.[J].程泽凯;林士敏;.情报学报.2004, 05
[8]
用AUC评估分类器的预测性能.[J].杨波;程泽凯;秦锋;.情报学报.2007, 02
[9]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[10]
Inference for the generalization error [J].
Nadeau, C ;
Bengio, Y .
MACHINE LEARNING, 2003, 52 (03) :239-281