产生于20世纪90年代的数据挖掘(Data Mining,DM)技术是一种基于海量数据获取知识的技术。随着计算机和存储技术的快速发展,人们已经积累了大量的历史数据,迫切需要把这些历史数据转化为可用的知识,因此DM相关内容已得到广泛的研究,并有一些成功的应用。但当面对的挖掘任务涉及不同类型的代价时,大多现有DM算法的直接应用不能很好地完成DM任务,需引入代价敏感数据挖掘(Cost Sensitive DM,CSDM)。对于给定的样本集,常用的DM算法假定每个样本的误分类代价都相等,以泛化精度为学习目标;而CSDM则是考虑到不同样本的误分类代价不相等,以最小化期望代价为学习目标。
支持向量机(Support Vector Machines,SVM)源于统计学习理论(Statistical Learning Theory,SLT),是一种强有力的DM算法。不同于神经网络、决策树等传统算法基于经验风险最小化(Empirical Risk Minimization,ERM)准则,SVM基于结构风险最小化(Structural Risk Minimization,SRM)准则,即同时考虑经验风险和模型复杂度,因而获得良好的泛化性能。但和传统算法一样,SVM不具有代价敏感性,不能直接用于CSDM。
针对CSDM问题,本论文提出一系列基于改进SVM的CSDM算法,并进行应用研究。本论文主要内容如下:
1.基于SVM及其启发,提出并证明了支持向量率(和数)与边界支持向量率(和数)的界,并把这些界分别扩展到正例与反例;提出并证明了正例的支持向量率与边界支持向量率分别依概率大于反例的支持向量率与边界支持向量率;证明了正例的分类性能依概率差于反例的分类性能,即证明SVM算法应用于不平衡数据挖掘时同传统基于精度的算法一样存在“有偏性”。虚拟数据集试验和Benchmark数据集试验表明了假设的合理性和结论的正确性。
2.基于SVM实现SRM原则的启发,在SVM中嵌入拒识代价和误分类代价,提出了SVM-RMC分类器的设计,并基于修改的SMO算法给出了该优化问题的求解方法。在SVM-RMC中,决策函数和拒识区域的确定在训练过程中实现。试验结果表明:相比于SVM,SVM-RMC减少平均测试代价,提高分类可靠性。
3.基于SVM,通过引入概率估计和代价最小化过程,提出了一个基于SVM的CSDM算法CS-SVM,在此基础上提出了一个通用CSDM算法G-CSC。CS-SVM和G-CSC以误分类代价最小作为优化目标,G-CSC中包含的分类算法可以是任意的,只要把分类算法的输出构造成后验概率的形式。基于虚拟和Benchmark数据集的试验结果表明CS-SVM能有效减小平均测试误分类代价。
4.基于K最近邻(KNN)算法,提出了确定噪音代价的方法,并将其引入到SVC和SVR算法,进而提出了嵌入噪音代价的代价敏感SVC(SVC-NC)算法和代价敏感SVR(SVR-NC)算法。基于虚拟和Benchmark数据集的试验结果表明,