基于支持向量机的数据挖掘应用研究

被引:0
作者
王从胜
机构
[1] 江南大学
关键词
数据挖掘; 统计学习理论; 支持向量机; 半监督分类; 多分类;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
数据挖掘是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。支持向量机(support vector machine,SVM)是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习问题的新工具。它是在统计学习理论基础上发展起来的一种通用学习机器,具有全局最优、结构简单和推广能力强等优点。 传统的支持向量机是一种有监督的机器学习算法,即要求训练样本的类别信息是已知的。但在将SVM应用到实际问题中时,经常只能获得少量的有标签样本,而大量的样本是没有标签的,这时传统的SVM算法在这类问题面前就无能为力了。为了解决这一问题,T.Joachims提出了直推式学习的方法TSVM(Transductive SupportVector Machine)。陈毅松等人对TSVM作了改进,提出了渐进直推式支持向量机PTSVM(Progressive Transductive Support Vector Machine)。本文对PTSVM作了进一步的改进,提出了基于离散度量的支持向量机SDSVM (Separation Degree Support Vector Machine)。该算法引入了Fisher准则中的样本离散度作为度量标准,利用Fisher准则函数作为评价函数,试图使算法在训练结束时能找到这样一个分割平面,使同类样本间尽量密集而不同类样本间距离尽量拉大。达到了降低了算法训练的时间复杂度和提高测试精度的目的。 简单的支持向量机只能处理二值分类问题,不能直接处理多值分类问题。而现实世界中的大部分数据都是多类数据,所以需要对简单支持向量机作进一步扩展,使之能解决多值分类问题。本文介绍了几种用于多值分类的SVM算法,包括“一对多”、“一对一”、有向无环图SVM以及基于决策树的SVM,并比较了它们各自的优点和缺点。通过分析SDSVM的不足之处,对它作了进一步的改进,并将其成功与多值分类的SVM算法相结合。实验结果表明,SDSVM在应用于半监督的多值分类问题中取得了较好的性能。
引用
收藏
页数:56
共 19 条
[1]
一种改进的序贯最小优化算法 [J].
骆世广 ;
杨晓伟 ;
吴广潮 ;
张新华 .
计算机科学, 2006, (11) :146-148
[2]
基于进化稳定策略的遗传算法 [J].
苏小红 ;
杨博 ;
王亚东 .
软件学报, 2003, (11) :1863-1868
[3]
一种改进的SMO算法 [J].
张召 ;
黄国兴 ;
鲍钰 .
计算机科学, 2003, (08) :128-129+133
[4]
基于支持向量机的渐进直推式分类学习算法 [J].
陈毅松 ;
汪国平 ;
董士海 .
软件学报, 2003, (03) :451-460
[5]
一种基于核函数的非线性感知器算法 [J].
许建华 ;
张学工 ;
李衍达 .
计算机学报, 2002, (07) :689-695
[6]
关于统计学习理论与支持向量机 [J].
张学工 .
自动化学报, 2000, (01)
[7]
基于大型数据仓库的数据采掘:研究综述 [J].
胡侃 ;
夏绍玮 .
软件学报, 1998, (01)
[8]
A simple decomposition method for support vector machines [J].
Hsu, CW ;
Lin, CJ .
MACHINE LEARNING, 2002, 46 (1-3) :291-314
[9]
Improving support vector machine classifiers by modifying kernel functions [J].
Amari, S ;
Wu, S .
NEURAL NETWORKS, 1999, 12 (06) :783-789
[10]
A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167