深度学习神经网络在语音识别中的应用研究

被引:0
作者
陈硕
机构
[1] 华南理工大学
关键词
神经网络; 语音识别; 反向传播算法(BP); 限制玻尔兹曼机(RBM); 深度信念网络(DBN);
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
传统的语音识别技术以模板匹配法为主要方法,现代语音识别技术以神经网络为主要发展趋势。人工神经网络模拟了人类神经元活动原理,具有自学习、联想、对比、推理和概括能力,它为解决语音识别这样的一个复杂的模式分类问题提供了新的途径。深度学习是近年来新兴的一门机器学习子领域,该领域主要是探讨包含多层结点的人工神经网络的建模和学习问题。这种深度神经网络在面对复杂的智能问题时可以更好地进行处理,网络模型的信息处理方式在模仿人脑方面更进一步,模型可以好的用于进行语音识别。 本文首先介绍了从语音采集,预处理,端点检测,到特征参数提取和时间规整网络各阶段的理论和算法。在语音的特征参数提取阶段,本文实际应用中美尔频率倒谱系数(MFCC)和美尔频率倒谱系数(MFCC)一阶差分,作为后续神经网络语音识别系统的输入数据。 接着研究了基于反向传播算法(BP)神经网络的语音识别,采用基于MFCC与MFCC一阶差分混合参数的语音识别方法,可以更好地表现语音的特征,并对识别系统中的BP神经网络进行了优化,缩短了训练时间,提高了识别性能。 深度学习算法中的限制玻尔兹曼机(Restricted BoltzmannMachine,RBM)模型相对比较容易学习,这种模型的算法克服了直接对多层网络进行训练的效率问题。因此,本文最后采用RBM堆叠构建深度信念网络模型(Deep BeliefNets,DBN)并用于非特定人语音识别。采用深度神经网络后,可以充分描述特征之间的相关性,可以把连续多帧的语音特征并在一起,由于采用模拟人脑的多层结构,可以逐级地进行信息特征抽取,最终形成适合模式分类的较理想的高维特征,从而提高识别效果。在DBN中,我们把时间规整后的MFCC与MFCC一阶差分混合参数作为输入数据,实验过程依据RBM设置规则对网络模型进行优化,增强模型的学习效果,并与传统BP模型作对比后发现可以达到一个较好的识别效果。
引用
收藏
页数:75
共 14 条
[1]
基于神经网络的语音识别研究 [D]. 
王伟臻 .
浙江大学,
2008
[2]
说话人识别系统的研究 [D]. 
刘永红 .
西南交通大学,
2003
[3]
隐马氏模型的建立及其应用 [D]. 
王春玲 .
国防科学技术大学,
2002
[4]
Representational power of restricted Boltzmann machines and deep belief networks [J].
Le Roux, Nicolas ;
Bengio, Yoshua .
NEURAL COMPUTATION, 2008, 20 (06) :1631-1649
[5]
A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554
[6]
The role of the primary visual cortex in higher level vision.[J].Tai Sing Lee;David Mumford;Richard Romero;Victor A.F. Lamme.Vision Research.1998, 15
[7]
人工神经网络及其融合技术.[M].钟珞; 饶文碧; 邹承明; 著.科学出版社.2007,
[8]
语音信号处理.[M].韩纪庆; 张磊; 郑铁然; 编著.清华大学出版社.2004,
[9]
人工神经网络原理及仿真实例.[M].高隽编著;.机械工业出版社.2003,
[10]
现代语音技术基础与应用.[M].蔡莲红等编著;.清华大学出版社.2003,