协同学习研究及其在分类问题中的应用

被引:0
作者
徐京雷
机构
[1] 山东师范大学
关键词
半监督学习; 协同训练; 神经网络; 支持向量机; Tri-training算法;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
自从计算机问世以来,人们就想知道它们能不能自我学习。计算机辅助人类更好的生产生活已经有着较长的历史,如何利用计算机模拟人类的学习行为,创新知识,获取新的机能,运用已经形成的知识来提升自身的能力,已经成为人类重点研究的科学项目之一。在人工智能领域,机器学习则是重点内容之一,机器学习的结果具有重要的现实指导意义,所以被广泛的应用于人脸识别、机器人技术、生物技术分析、金融信息处理、网络信息分析等领域。 经典的机器学习算法可以分为监督学习,无监督学习和半监督学习三个类别。无监督的学习过程中,我们只有数据的特征,而没有相应的结果度量,我们只能利用给出的样本信息对总体进行聚类,这就导致无监督学习很难达到较高的学习精度。在监督学习中,我们通过学习已知数据集的特征和相应结果,建立预测模型,来预测未知数据特征的结果。但是,当训练样例不足时,训练出的学习器则缺乏足够的泛化能力。而现实应用中,我们往往很难获取大量的标记数据,在这种情况下,利用传统的机器学习策略则很难获得具有足够泛化能力和分类精度的学习器。 半监督学习是近年来提出的一种机器学习策略,弥补了监督学习和无监督学习的缺陷。按照半监督学习算法的原理来划分,现有的大多数半监督学习算法可以归类成协同训练算法,基于图正则化框架的方法,生成模型算法,半监督支持向量机四类。这些算法同时使用标记数据和未标记的数据来进行训练,利用未标记标签来提升学习性能。协同训练风范是一种重要的半监督学习策略,它的特点是易理解、稳定、收敛快,并且适合求解多维数据分类问题,所以是一种非常具有研究价值的学习算法。 本文首先介绍了标准的Tri-training算法,并对之进行了改进。将改进后的协同训练策略引入分类问题。在神经网络训练中,只使用有限的标记训练例,利用大量的未标记训练例对分类器反复修正。事实证明,Tri-training的引入能够有效提高神经网络算法的分类精度。同时通过使用神经网络的不同训练函数,来体现分类器之间的差异性,从而进一步改善了协同训练算法的性能。模拟实验表明,改进后的算法保留了协同训练的优良特点,最终的分类效果也更好。在使用SVM解决分类问题时,训练样本的个数直接决定问题求解的维数。对于大规模数据的分类训练问题,SVM由于计算量庞大而导致高耗时、分类效率低下。本文提出了基于数据划分的协同SVM算法,算法将大规模数据划分为多个“冗余”的小数据集,在每个小的数据集上分别进行SVM训练得到多个分类器,使用协同训练的策略得到最终的分类结果。同时通过SVM核函数的多样性,来拓展参与协同训练SVM分类器的独立性,即提高了SVM训练的分类效率,又改善了协同训练算法的性能。对比试验结果证明,基于数据划分的协同SVM算法有着更高的分类效率和更好的分类精度。
引用
收藏
页数:70
共 27 条
[1]
Exploiting unlabeled data to improve peer-to-peer traffic classification using incremental tri-training method [J].
Raahemi, Bijan ;
Zhong, Weicai ;
Liu, Jing .
PEER-TO-PEER NETWORKING AND APPLICATIONS, 2009, 2 (02) :87-97
[2]
Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[3]
Text classification from labeled and unlabeled documents using EM [J].
Nigam, K ;
McCallum, AK ;
Thrun, S ;
Mitchell, T .
MACHINE LEARNING, 2000, 39 (2-3) :103-134
[4]
Bagging predictors [J].
Breiman, L .
MACHINE LEARNING, 1996, 24 (02) :123-140
[5]
Learning from noisy examples.[J].Dana Angluin;Philip Laird.Machine Learning.1988, 4
[6]
支持向量机.[M].邓乃扬; 田英杰; 著.科学出版社.2009,
[7]
人工神经网络与微粒群优化.[M].刘希玉; 刘弘; 编著.北京邮电大学出版社.2006,
[8]
机器学习及其应用.[M].王珏;周志华;周傲英主编;.清华大学出版社.2006,
[9]
神经网络与应用.[M].董长虹编著;.国防工业出版社.2005,
[10]
关系tri-training:利用无标记数据学习一阶规则 [J].
李艳娟 ;
郭茂祖 .
计算机科学与探索, 2012, (05) :430-442