Hadoop平台下基于SVM主动学习的分类算法研究

被引:0
作者
潘兴江
机构
[1] 华南理工大学
关键词
主动学习; SVM; hadoop平台; 分类;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
传统监督学习,通过对外界给定的已标注样本集构建训练集进行训练,归纳出模型,但构建正确率满足要求的分类器常常需要大量的训练样本,这样就要花费大量的时间进行评价、标注样本。为了解决这个问题,则需要研究一种方法能够在减少训练样本的同时,提升分类器的分类性能。于是,主动学习作为解决这类问题的一种方法被提出来,该算法能够从未标注样本集中选择信息量最大的样本交由用户进行标注,在减少所需评价的样本数量的同时,不断完善自身的识别效果。 SVM基于结构风险最小化原理,避免了局部最优问题,用核函数在输入空间计算特征空间的向量点积,避免了维数灾难问题,最优分界面使得SVM在小训练样本条件下也具有高的泛化能力。而主动学习算法具有需要训练样例较少,受不平衡训练样例干扰较小等特点,与SVM组合能降低构建高性能分类器的代价,获得较高的分类性能。因此,本文采用主动学习与支持向量机相结合的分类算法,并针对传统SVM主动学习算法对不均衡数据集学习能力较差导致SVM主动学习在选择过程中选择效率较低的问题引入了一种均衡采样的SVM主动学习算法(BC-SVM)。同时,由于初始样本集会影响SVM主动学习的收敛,本文在BC-SVM的基础上采用模糊聚类构建初始样本集,并改进模糊选择算法模型,提出了一种模糊聚类的均衡采样SVM主动学习算法(FBC-SVM),使得初始样本的选取更具代表性和信息量,加速SVM主动学习算法的收敛。 同时,本文还分析了SVM主动学习询问机制的算法复杂度,在对Hadoop平台的研究基础上,利用Hadoop对SVM主动学习询问机制进行Map/Reduce化,使Hadoop对SVM主动学习询问机制能并行地运行在Hadoop平台之上。在有效地利用了多台计算机的运算能力后,通过实验证明了Hadoop平台下的SVM主动学习询问机制能有效地调度每台计算机的计算资源,减少高维数据分类的运行时间。
引用
收藏
页数:68
共 17 条
[1]
基于专家委员会的主动学习算法研究 [D]. 
梁延峰 .
中国海洋大学,
2010
[2]
基于主动学习SVM的智能车辆障碍物检测 [D]. 
周艳丽 .
南京理工大学,
2008
[3]
高级人工智能.[M].史忠植著;.科学出版社.2006,
[4]
一种基于主动学习的SVM增量训练算法 [J].
徐海龙 ;
王晓丹 ;
廖勇 ;
权文 .
控制与决策, 2010, (02) :282-286
[5]
选取最大可能预测错误样例的主动学习算法 [J].
龙军 ;
殷建平 ;
祝恩 ;
蔡志平 .
计算机研究与发展, 2008, (03) :472-478
[6]
主动学习研究综述 [J].
龙军 ;
殷建平 ;
祝恩 ;
赵文涛 .
计算机研究与发展 , 2008, (S1) :300-304
[7]
基于朴素贝叶斯算法的垃圾邮件网关 [J].
刘宏伟 ;
黄静 .
微计算机信息, 2006, (18) :73-75+69
[8]
一种新的基于构造型神经网络分类算法 [J].
黄国宏 ;
熊志化 ;
邵惠鹤 .
计算机学报, 2005, (09) :1519-1523
[9]
基于核方法的模糊聚类算法 [J].
伍忠东 ;
高新波 ;
谢维信 .
西安电子科技大学学报, 2004, (04) :533-537
[10]
主动贝叶斯网络分类器 [J].
宫秀军 ;
孙建平 ;
史忠植 .
计算机研究与发展, 2002, (05) :574-579