数据挖掘是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。它是在统计学习理论基础上发展起来的一种通用学习机器,具有全局最优、结构简单和推广能力强等优点。
传统的支持向量机是一种有监督的机器学习算法,即要求训练样本的类别信息是已知的。但在将SVM应用到实际问题中时,经常只能获得少量的有标签样本,而大量的样本是没有标签的,这时传统的SVM算法在这类问题面前就无能为力了。为了解决这一问题,T.Joachims提出了直推式学习的方法TSVM(Transductive SupportVector Machine)。陈毅松等人对TSVM作了改进,提出了渐进直推式支持向量机PTSVM(Progressive Transductive Support Vector Machine)。本文对PTSVM作了进一步的改进,提出了基于离散度量的支持向量机SDSVM (Separation Degree Support Vector Machine)。该算法引入了Fisher准则中的样本离散度作为度量标准,利用Fisher准则函数作为评价函数,试图使算法在训练结束时能找到这样一个分割平面,使同类样本间尽量密集而不同类样本间距离尽量拉大。达到了降低了算法训练的时间复杂度和提高测试精度的目的。
简单的支持向量机只能处理二值分类问题,不能直接处理多值分类问题。而现实世界中的大部分数据都是多类数据,所以需要对简单支持向量机作进一步扩展,使之能解决多值分类问题。本文介绍了几种用于多值分类的SVM算法,包括“一对多”、“一对一”、有向无环图SVM以及基于决策树的SVM,并比较了它们各自的优点和缺点。通过分析SDSVM的不足之处,对它作了进一步的改进,并将其成功与多值分类的SVM算法相结合。实验结果表明,SDSVM在应用于半监督的多值分类问题中取得了较好的性能。