支持向量机多类分类算法研究

被引：0

作者：

丁然

机构：

[1] 哈尔滨理工大学

关键词：

支持向量机; 不平衡数据; 多类分类; 二叉树;

D O I：

暂无

年度学位：

2012

学位类型：

硕士

导师：

黄金杰;

摘要：

支持向量机(SVM)为一种由Vapnik等人研发出的机器学习方法，是面向小样本进行学习而提出的方法。它在统计学习理论的基础上发展而来，由于继承了其结构风险最小化准则和VC维理论，可以很好的解决训练误差过小反而导致推广能力下降的问题，提高了学习方法对未来输出进行正确预测的能力。正是支持向量机的这些优点，这种学习方法得到了众多学者的高度关注，已成为研究的重点推动着机器学习的发展。支持向量机的发展起源是解决两类分类的问题，可在实际中主要的情况是对多类加以分类，因此，如何将其推向多类处理问题成为当今一项十分重要的研究方向。本文对支持向量机的支撑理论统计学习理论进行了关键理论的阐述，并在此基础上论述了支持向量机算法，对支持向量机的分类原理进行了论述。在明确支持向量机原理的基础上，总结了关于支持向量机多类分类方法的国内外研究成果，包涵有“一对一”、二叉树、“一对多”、决策有向无环图等多种方法。分析对比了各个方法的优点和不足，并对它们的分类性能做出总结。通过分析各个多类分类方法，总结出了二叉树方法具有最优的多类分类性能，尤其是对于大规模多类分类问题。本文针对二叉树方法的关键性问题，即树层次结构的划分提出了改进的向量投影方法，利用此方法度量类间可分性的大小，并将易分的类放在树的上层节点中，从而减少误差累积现象对分类精度的影响。二叉树的另一个问题是某些节点处存在不平衡数据分类现象，本文利用改进的SMOTE向上采样方法对不平衡数据集进行采样。本方法不改变样本集分布特性，并且降低了因随机采样而造成的严重样本混叠。最后，将本文的各个算法在UCI数据库上进行了验证，与改进前的方法及“一对多”方法相比，本文的算法提高了分类精度，尤其是对于大规模多类分类的应用中得到了更显著的良好分类效果。

引用

页数：55

共 31 条

[1]

Lagrange双支撑向量回归机 [J].