基于多类支持向量机的文本分类研究

被引:0
作者
杜圣东
机构
[1] 重庆大学
关键词
支持向量机; 特征选择; 文本挖掘; 二叉树多分类SVM; 文本分类;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
随着信息时代的高速发展,如何对已有大量自然语言文本进行挖掘,特别是对其按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题,这就是文本挖掘中很重要的一类任务-文本分类。支持向量机是由Vapnik等人提出的一种学习技术,是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。但支持向量机最初是针对二类分类提出的,如何将其扩展到多类并应用于文本分类是本文研究的重要内容。 本文在对文本挖掘问题进行阐述的基础上,对支持向量机多类分类算法进行了深入的研究,在考察现有多分类SVM算法后,提出了一种基于二叉树基础的多类SVM改进算法,并把改进后的多类SVM用于文本挖掘中的文本分类。己经进行的主要研究工作如下: ①研究了文本挖掘的常见技术,并以文本分类为主要任务,阐述了常用的文本分类算法。接下来对支持向量机原理进行了阐述,并对其应用于分类挖掘时的问题及解决方法做了简要分析。 ②支持向量机多类分类算法的研究,分析比较了目前存在的基于支持向量机的多类别分类方法,包括“一对多”方法、“一对一”方法、一次性求解方法、决策有向无环图方法、基于二叉树的支持向量机多类分类方法等,比较了它们的优缺点及性能。 ③重点研究了基于二叉树的多类SVM分类算法,详细地讨论了目前存在的几种二叉树多类SVM算法组合策略,在训练时间、决策方案等方面作了对比,并提出了一种基于二叉树多分类SVM树结构的改进策略,在研究过程中,通过数值实验对改进后的二叉树多类SVM与几种常见的多类SVM算法的分类效果进行了比较。 ④研究了基于二叉树多类SVM改进的文本分类器设计,针对传统二分类SVM文本分类器及多类SVM文本分类器的缺陷,利用本文中改进的多类SVM分类算法作为文本分类器核心算法,并在多类文本分类实验中进行验证。
引用
收藏
页数:84
共 19 条
[1]
A simple decomposition method for support vector machines [J].
Hsu, CW ;
Lin, CJ .
MACHINE LEARNING, 2002, 46 (1-3) :291-314
[2]
Multicategory Classification by Support Vector Machines.[J].Erin J. Bredensteiner;Kristin P. Bennett.Computational Optimization and Applications.1999, 1
[3]
SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297
[4]
MEASURING THE VC-DIMENSION OF A LEARNING-MACHINE [J].
VAPNIK, V ;
LEVIN, E ;
LECUN, Y .
NEURAL COMPUTATION, 1994, 6 (05) :851-876
[5]
文本挖掘技术研究进展 [J].
袁军鹏 ;
朱东华 ;
李毅 ;
李连宏 ;
黄进 .
计算机应用研究, 2006, (02) :1-4
[6]
一种基于粗糙集和支持向量机的混合分类算法 [J].
李波 ;
李新军 .
计算机应用, 2004, (03) :65-67+70
[7]
支持向量机在多类分类问题中的推广 [J].
刘志刚 ;
李德仁 ;
秦前清 ;
史文中 ;
不详 .
计算机工程与应用 , 2004, (07) :10-13+65
[8]
基于SVM的二叉树多类分类算法及其在故障诊断中的应用 [J].
马笑潇 ;
黄席樾 ;
柴毅 ;
不详 .
控制与决策 , 2003, (03) :272-276+284
[9]
向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[10]
数据挖掘中的数据分类算法综述 [J].
刘红岩 ;
陈剑 ;
陈国青 .
清华大学学报(自然科学版), 2002, (06) :727-730