支持向量机(SVM)为一种由Vapnik等人研发出的机器学习方法,是面向小样本进行学习而提出的方法。它在统计学习理论的基础上发展而来,由于继承了其结构风险最小化准则和VC维理论,可以很好的解决训练误差过小反而导致推广能力下降的问题,提高了学习方法对未来输出进行正确预测的能力。正是支持向量机的这些优点,这种学习方法得到了众多学者的高度关注,已成为研究的重点推动着机器学习的发展。支持向量机的发展起源是解决两类分类的问题,可在实际中主要的情况是对多类加以分类,因此,如何将其推向多类处理问题成为当今一项十分重要的研究方向。
本文对支持向量机的支撑理论统计学习理论进行了关键理论的阐述,并在此基础上论述了支持向量机算法,对支持向量机的分类原理进行了论述。在明确支持向量机原理的基础上,总结了关于支持向量机多类分类方法的国内外研究成果,包涵有“一对一”、二叉树、“一对多”、决策有向无环图等多种方法。分析对比了各个方法的优点和不足,并对它们的分类性能做出总结。
通过分析各个多类分类方法,总结出了二叉树方法具有最优的多类分类性能,尤其是对于大规模多类分类问题。本文针对二叉树方法的关键性问题,即树层次结构的划分提出了改进的向量投影方法,利用此方法度量类间可分性的大小,并将易分的类放在树的上层节点中,从而减少误差累积现象对分类精度的影响。二叉树的另一个问题是某些节点处存在不平衡数据分类现象,本文利用改进的SMOTE向上采样方法对不平衡数据集进行采样。本方法不改变样本集分布特性,并且降低了因随机采样而造成的严重样本混叠。最后,将本文的各个算法在UCI数据库上进行了验证,与改进前的方法及“一对多”方法相比,本文的算法提高了分类精度,尤其是对于大规模多类分类的应用中得到了更显著的良好分类效果。