基于支持向量机的代价敏感数据挖掘研究与应用

被引:0
作者
郑恩辉
机构
[1] 浙江大学
关键词
数据挖掘; 代价敏感数据挖掘; 支持向量机;
D O I
暂无
年度学位
2006
学位类型
博士
摘要
产生于20世纪90年代的数据挖掘(Data Mining,DM)技术是一种基于海量数据获取知识的技术。随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫切需要把这些历史数据转化为可用的知识,因此DM相关内容已得到广泛的研究,并有一些成功的应用。但当面对的挖掘任务涉及不同类型的代价时,大多现有DM算法的直接应用不能很好地完成DM任务,需引入代价敏感数据挖掘(Cost Sensitive DM,CSDM)。对于给定的样本集,常用的DM算法假定每个样本的误分类代价都相等,以泛化精度为学习目标;而CSDM则是考虑到不同样本的误分类代价不相等,以最小化期望代价为学习目标。 支持向量机(Support Vector Machines,SVM)源于统计学习理论(Statistical Learning Theory,SLT),是一种强有力的DM算法。不同于神经网络、决策树等传统算法基于经验风险最小化(Empirical Risk Minimization,ERM)准则,SVM基于结构风险最小化(Structural Risk Minimization,SRM)准则,即同时考虑经验风险和模型复杂度,因而获得良好的泛化性能。但和传统算法一样,SVM不具有代价敏感性,不能直接用于CSDM。 针对CSDM问题,本论文提出一系列基于改进SVM的CSDM算法,并进行应用研究。本论文主要内容如下: 1.基于SVM及其启发,提出并证明了支持向量率(和数)与边界支持向量率(和数)的界,并把这些界分别扩展到正例与反例;提出并证明了正例的支持向量率与边界支持向量率分别依概率大于反例的支持向量率与边界支持向量率;证明了正例的分类性能依概率差于反例的分类性能,即证明SVM算法应用于不平衡数据挖掘时同传统基于精度的算法一样存在“有偏性”。虚拟数据集试验和Benchmark数据集试验表明了假设的合理性和结论的正确性。 2.基于SVM实现SRM原则的启发,在SVM中嵌入拒识代价和误分类代价,提出了SVM-RMC分类器的设计,并基于修改的SMO算法给出了该优化问题的求解方法。在SVM-RMC中,决策函数和拒识区域的确定在训练过程中实现。试验结果表明:相比于SVM,SVM-RMC减少平均测试代价,提高分类可靠性。 3.基于SVM,通过引入概率估计和代价最小化过程,提出了一个基于SVM的CSDM算法CS-SVM,在此基础上提出了一个通用CSDM算法G-CSC。CS-SVM和G-CSC以误分类代价最小作为优化目标,G-CSC中包含的分类算法可以是任意的,只要把分类算法的输出构造成后验概率的形式。基于虚拟和Benchmark数据集的试验结果表明CS-SVM能有效减小平均测试误分类代价。 4.基于K最近邻(KNN)算法,提出了确定噪音代价的方法,并将其引入到SVC和SVR算法,进而提出了嵌入噪音代价的代价敏感SVC(SVC-NC)算法和代价敏感SVR(SVR-NC)算法。基于虚拟和Benchmark数据集的试验结果表明,
引用
收藏
页数:143
共 48 条
[1]
基于后验概率的支持向量机 [J].
吴高巍 ;
陶卿 ;
王珏 .
计算机研究与发展, 2005, (02) :196-202
[2]
基于FSVMs的多模型建模方法 [J].
冯瑞 ;
沈伟 ;
张艳珠 ;
邵惠鹤 .
控制与决策, 2003, (06) :646-650
[3]
基于最小二乘支持向量机的软测量建模 [J].
阎威武 ;
朱宏栋 ;
邵惠鹤 .
系统仿真学报, 2003, (10) :1494-1496
[4]
唐钢二炼铁厂3号高炉铁水硅含量神经网络预报模型 [J].
张玉朵 ;
闫小林 .
河北理工学院学报, 2003, (03) :6-10
[5]
模糊支持向量机在汽轮机故障诊断中的应用 [J].
王国鹏 ;
翟永杰 ;
封官斌 ;
王东风 .
华北电力大学学报, 2003, (04) :47-50
[6]
应用支持向量机实现计算机入侵检测 [J].
饶鲜 ;
董春曦 ;
杨绍全 .
西安电子科技大学学报, 2003, (03) :353-356+373
[7]
基于支持向量机的数据建模在软测量建模中的应用 [J].
朱国强 ;
刘士荣 ;
俞金寿 .
华东理工大学学报, 2002, (S1) :6-10
[8]
支持向量机算法和软件ChemSVM介绍 [J].
陆文聪 ;
陈念贻 ;
叶晨洲 ;
李国正 .
计算机与应用化学, 2002, (06) :697-702
[9]
支持向量机及其他核函数算法在化学计量学中的应用 [J].
陈念贻 ;
陆文聪 ;
叶晨洲 ;
李国正 .
计算机与应用化学, 2002, (06) :691-696
[10]
支持向量机方法用于民航安检炸药判别研究 [J].
陆文聪 ;
陈念贻 ;
叶晨洲 ;
李国正 ;
朱东屏 .
计算机与应用化学, 2002, (06) :709-711