前馈神经网络梯度训练算法的几个收敛性结果

被引:0
作者
张会生
机构
[1] 大连理工大学
关键词
前馈神经网络; 惩罚项; 梯度算法; 有界性; 收敛性; 复数值神经网络; 复梯度算法; 动量项;
D O I
暂无
年度学位
2009
学位类型
博士
导师
摘要
近年来神经网络在许多领域都得到了广泛的应用。前馈神经网络是一种构造简单而应用广泛的神经网络模型,其主要的训练算法是梯度法。为了提高算法的训练性能,人们对梯度算法作了各种改进,例如:加入惩罚项来提高网络的泛化能力,加入动量项来加快算法的训练速度并帮助跳出局部极小,引入复数值神经网络和相应的梯度算法来处理复数值信号等。如何从理论上对这些改进算法的性质(特别是收敛性)进行分析,成为神经网络领域的一个重要研究课题。本文主要研究了用于训练前馈神经网络的一些梯度算法的收敛性,并提出了一种自适应确定带动量项BP算法中动量因子的方法。具体地,本论文包括以下内容: 1.在现有的关于训练前馈神经网络的在线梯度算法的文献中,大部分收敛性结果需要假设网络权值有界。而这一假设在网络实际训练中是难以验证的。即使在没有这一假设的文献中,也需要额外的更加难以验证的条件。一个自然的结果是:带有惩罚项的前馈神经网络梯度训练算法可以保证网络权值有界。但是这一结果在相关文献中并没有严格的证明。为了填补这一理论空白,本文首先严格证明了带惩罚的在线梯度算法在训练具有sigmoid输出和线性输出前馈神经网络时的权值有界性(同时利用随机逼近理论,证明了相关算法的收敛性),然后严格证明了带惩罚项前馈神经网络批处理梯度训练算法的权值有界性。 2.通过对训练复数值神经网络的批处理梯度算法的研究,本文给出了一个保证误差函数单调下降的学习率的上界,并由此证明了训练算法的收敛性。这一结果为实际应用中学习率的合理选取提供了依据。通过进一步研究训练复数值神经网络的带动量项批处理梯度算法,建立了保证误差函数单调下降的学习率和动量因子之间的关系,并证明了在相应条件下的算法收敛性。 3.为提高神经网络的训练速度,提出一种自适应确定带动量项BP算法中动量因子的方法。在学习率为常数情况下,根据误差函数关于权值向量的梯度变化情况,自适应调节动量因子。数值试验表明,该方法对离线和在线训练均有效,且在收敛速度和算法稳定性上优于常动量因子的BP算法。
引用
收藏
页数:93
共 17 条
[1]
神经网络计算.[M].吴微编著;.高等教育出版社.2003,
[2]
Convergence of gradient method with momentum for back-propagation neural networks [J].
Wu, Wei ;
Zhang, Naimin ;
Li, Zhengxue ;
Li, Long ;
Liu, Yan .
JOURNAL OF COMPUTATIONAL MATHEMATICS, 2008, 26 (04) :613-623
[3]
Convergence of BP algorithm for product unit neural networks with exponential weights.[J].C. Zhang;W. Wu;X.H. Chen;Y. Xiong.Neurocomputing.2008, 1
[4]
Training pi-sigma network by online gradient algorithm with penalty for small weight update [J].
Xiong, Yan ;
Wu, Wei ;
Kang, Xidai ;
Zhang, Chao .
NEURAL COMPUTATION, 2007, 19 (12) :3356-3368
[5]
On-line neural training algorithm with sliding mode control and adaptive learning rate.[J].A. Nied;S.I. Seleme;G.G. Parma;B.R. Menezes.Neurocomputing.2007, 16
[6]
Convergence analysis of batch gradient algorithm for three classes of sigma-pi neural networks [J].
Zhang, Chao ;
Wu, Wei ;
Xiong, Yan .
NEURAL PROCESSING LETTERS, 2007, 26 (03) :177-189
[7]
Orthogonality of decision boundaries in complex-valued neural networks [J].
Nitta, T .
NEURAL COMPUTATION, 2004, 16 (01) :73-97
[8]
Training multilayer perceptrons via minimization of sum of ridge functions [J].
Wu, W ;
Feng, GR ;
Li, X .
ADVANCES IN COMPUTATIONAL MATHEMATICS, 2002, 17 (04) :331-347
[9]
Second-order learning algorithm with squared penalty term [J].
Saito, K ;
Nakano, R .
NEURAL COMPUTATION, 2000, 12 (03) :709-729
[10]
Parameter convergence and learning curves for neural networks [J].
Fine, TL ;
Mukherjee, S .
NEURAL COMPUTATION, 1999, 11 (03) :747-769