深度学习神经网络在语音识别中的应用研究

被引：0

作者：

陈硕

机构：

[1] 华南理工大学

关键词：

神经网络; 语音识别; 反向传播算法(BP); 限制玻尔兹曼机(RBM); 深度信念网络(DBN);

D O I：

暂无

年度学位：

2013

学位类型：

硕士

导师：

冯久超;

摘要：

传统的语音识别技术以模板匹配法为主要方法，现代语音识别技术以神经网络为主要发展趋势。人工神经网络模拟了人类神经元活动原理，具有自学习、联想、对比、推理和概括能力，它为解决语音识别这样的一个复杂的模式分类问题提供了新的途径。深度学习是近年来新兴的一门机器学习子领域，该领域主要是探讨包含多层结点的人工神经网络的建模和学习问题。这种深度神经网络在面对复杂的智能问题时可以更好地进行处理，网络模型的信息处理方式在模仿人脑方面更进一步，模型可以好的用于进行语音识别。本文首先介绍了从语音采集，预处理，端点检测，到特征参数提取和时间规整网络各阶段的理论和算法。在语音的特征参数提取阶段，本文实际应用中美尔频率倒谱系数(MFCC)和美尔频率倒谱系数(MFCC)一阶差分，作为后续神经网络语音识别系统的输入数据。接着研究了基于反向传播算法(BP)神经网络的语音识别，采用基于MFCC与MFCC一阶差分混合参数的语音识别方法，可以更好地表现语音的特征，并对识别系统中的BP神经网络进行了优化，缩短了训练时间，提高了识别性能。深度学习算法中的限制玻尔兹曼机(Restricted BoltzmannMachine，RBM)模型相对比较容易学习，这种模型的算法克服了直接对多层网络进行训练的效率问题。因此，本文最后采用RBM堆叠构建深度信念网络模型(Deep BeliefNets，DBN)并用于非特定人语音识别。采用深度神经网络后，可以充分描述特征之间的相关性，可以把连续多帧的语音特征并在一起，由于采用模拟人脑的多层结构，可以逐级地进行信息特征抽取，最终形成适合模式分类的较理想的高维特征，从而提高识别效果。在DBN中，我们把时间规整后的MFCC与MFCC一阶差分混合参数作为输入数据，实验过程依据RBM设置规则对网络模型进行优化，增强模型的学习效果，并与传统BP模型作对比后发现可以达到一个较好的识别效果。

引用

页数：75

共 14 条

[1]

基于神经网络的语音识别研究 [D].