一种新的基于无损失函数的深度卷积神经网络的图像特征提取方法

被引:0
作者
李子强
机构
[1] 山东大学
关键词
图像识别; 图像特征提取; 深度学习; 卷积神经网络; MFANet; 块级随机直方图化;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
作为人工智能的重要技术之一,图像识别技术已经在社会的各个领域被广泛应用。例如:集装箱号码图像自动识别,人脸图像识别,病理图像自动识别等等。对于一个成熟的图像识别系统,其主要步骤可以分为四步:图像采集与预处理,目标图像定位和分割,图像特征提取,特征识别与分类。其中,图像特征提取是其最为重要的组成步骤。提取到的图像特征的质量直接影响着最终的分类结果。近年来,随着深度学习的发展,越来越多的图像特征提取采用了深度学习技术。由于深度卷积神经网络本身独特的结构优势,使其成为众多给予深度学习的图像识别程序中最为主流的图像特征提取手段。然而,由于目前深度学习研究趋势向着多层次,更复杂的方向,训练一个收敛的深度网络难度越来越高,不仅需要调整越来越多的参数,还需要保证其损失函数的收敛性,有时候还需要整合一些现有的训练技巧,例如dropout,maxout等。近年来,随着简单深度学习结构的提出,越来越多的研究人员着眼于这种无损失函数的深度学习模型。其中,最为著名的是PCANet深度卷积网络模型。其无损失函数的特性使得网络训练的难度大大降低。然而,由于其选择使用的无监督的主成分分析(Principal Component Analysis,PCA)算法进行卷积核的训练,使得最终的图像识别效果并不是那么理想。虽然随后基于监督学习的线性判别式分析(Linear Discriminant Analysis,LDA)方法来训练卷积核的深度学习模型LDANet被提出,但是由于LDA算法自身正负样本分离能力的局限性,使得LDANet模型的图像识别结果并无显著提升。并且,因为其特有的下采样方式,使其极易产生过度拟合现象。使得训练效果不尽如人意。在此论文中,针对PCANet与LDANet所出现的问题,主要做出了以下的贡献:1)本文基于PCANet的基本结构,创造性地将Marginal Fisher Analysis(MFA)引入卷积核的训练,提出了一种新的简单深度学习架构MFANet。由于MFA采取监督学习的方式,并且通过提取后的特征向量进行映射,使得投影后的正样本之间的距离尽可能小,同时保证负样本之间的距离尽可能大。使得卷积同类图像所得的特征与卷积后的异类图像特征在新的特征空间得以有效分离。本文运用标准数据集:字符识别数据集ICDAR2003,测试所提出的深度模型的识别性能,并且通过和一些流行的图像特征提取模型进行比较,最终的图像分类的结果表明MFANet模型的特征提取能力比其他深度模型要好。2)本文提出了一种新的下采样方法:基于概率的块级随机直方图化,来解决基于PCANet的模型所具有的鲁棒性不强的特点。该方法的核心是计算块级像素出现概率,并基于该概率去采样决定块级特征像素点是否保留,最终运用直方图输出特征。通过运用图像识别数据集:PIE FACE数据集,将所提出的下采样方法所池化的特征分类结果的与其它流行的下采样后的特征分类结果进行比较,实验结果表明本文所提出的方法有效地减少了过拟合现象。
引用
收藏
页数:62
共 8 条
[1]
Multilingual scene character recognition with co-occurrence of histogram of oriented gradients.[J].Shangxuan Tian;Ujjwal Bhattacharya;Shijian Lu;Bolan Su;Qingqing Wang;Xiaohua Wei;Yue Lu;Chew Lim Tan.Pattern Recognition.2016,
[2]
An Efficient Learning Procedure for Deep Boltzmann Machines [J].
Salakhutdinov, Ruslan ;
Hinton, Geoffrey .
NEURAL COMPUTATION, 2012, 24 (08) :1967-2006
[3]
A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554
[4]
ICDAR 2003 robust reading competitions: Entries, results, and future directions [J].
Lucas S.M. ;
Panaretos A. ;
Sosa L. ;
Tang A. ;
Wong S. ;
Young R. ;
Ashida K. ;
Nagai H. ;
Okamoto M. ;
Yamamoto H. ;
Miyao H. ;
Zhu J. ;
Ou W. ;
Wolf C. ;
Jolion J.-M. ;
Todoran L. ;
Worring M. ;
Lin X. .
International Journal of Document Analysis and Recognition (IJDAR), 2005, 7 (2-3) :105-122
[5]
Distinctive image features from scale-invariant keypoints [J].
Lowe, DG .
INTERNATIONAL JOURNAL OF COMPUTER VISION, 2004, 60 (02) :91-110
[6]
2D-LDA: A statistical linear discriminant analysis for image matrix.[J].Ming Li;Baozong Yuan.Pattern Recognition Letters.2004, 5
[7]
ACCELERATING THE CONVERGENCE OF THE BACK-PROPAGATION METHOD [J].
VOGL, TP ;
MANGIS, JK ;
RIGLER, AK ;
ZINK, WT ;
ALKON, DL .
BIOLOGICAL CYBERNETICS, 1988, 59 (4-5) :257-263