支持向量机研究及其在文本分类中的应用

被引:0
作者
吴义国
机构
[1] 广东工业大学
关键词
支持向量机; 支持向量; 核缓存; 文本分类; 工作集选择;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
支持向量机在机器学习方面具有良好的泛化能力、直观的几何解释和严格的数学理论基础,是机器学习领域发展很快的工具。文本分类技术是利用计算机技术在预先给定数据类别的情况下,根据数据文本的内容判定文本的类别,也就是为文本指定预先定义的类别标记,以帮助人们在当今互联网时代在大量信息中提取、过滤和管理文本数据。本文将支持向量机的训练算法研究与文本分类相结合,作为本文研究的对象,其主要工作如下: 首先,本文在分析了支持向量机数学原理和相关技术现状的基础上,阐述了目前支持向量机的几种常用的训练方法,并提出了一种改进的支持向量机训练方法NEWSMO。该方法针对支持向量机在训练时缓存使用的不足,在二次逼近的基础上将违反KKT条件程度最厉害的样本提取出来,然后缓存这些样本,作为工作集的选择范围,并且改变了支持向量机的停机条件。该方法提高了核缓存的命中率,减少了工作集选择的代价,从而减少了训练时间。实验表明,该方法能够很好地提高支持向量机的训练速度。 其次,本文在目前文本分类的研究背景和技术现状的基础上,使用基于特征向量的机器学习方法对文本分类进行研究。本文结合了主成分分析的方法和传统的DE-IDF方法作为特征选择方法,以增加特征向量的区分度。减少了SVM分类器学习和预测的类别数量和计算量。 最后,本文将上述改进算法应用到文本分类中。实现了一个文本分类系统原型。通过对搜狗文本分类数据集的实验,证明了改进支持向量机能有效解决文本的自动分类问题。
引用
收藏
页数:63
共 8 条
[1]
一种改进的序贯最小优化算法 [J].
骆世广 ;
杨晓伟 ;
吴广潮 ;
张新华 .
计算机科学, 2006, (11) :146-148
[2]
用Boosting方法组合增强Stumps进行文本分类(英文) [J].
刁力力 ;
胡可云 ;
陆玉昌 ;
石纯一 .
软件学报, 2002, (08) :1361-1367
[3]
聚类/分类中的粒度原理 [J].
卜东波 ;
白硕 ;
李国杰 .
计算机学报, 2002, (08) :810-816
[4]
基于序列的文本自动分类算法 [J].
解冲锋 ;
李 星 .
软件学报, 2002, (04) :783-789
[5]
独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7
[6]
概念推理网及其在文本分类中的应用 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机研究与发展, 2000, (09) :1032-1038
[7]
A study on SMO-type decomposition methods for support vector machines [J].
Chen, Pai-Hsuen ;
Fan, Rong-En ;
Lin, Chih-Jen .
IEEE TRANSACTIONS ON NEURAL NETWORKS, 2006, 17 (04) :893-908
[8]
Improvements to Platt's SMO algorithm for SVM classifier design [J].
Keerthi, SS ;
Shevade, SK ;
Bhattacharyya, C ;
Murthy, KRK .
NEURAL COMPUTATION, 2001, 13 (03) :637-649