基于深度自编码网络语音识别噪声鲁棒性研究

被引:8
作者
黄丽霞 [1 ]
王亚楠 [1 ]
张雪英 [1 ]
王洪翠 [2 ]
机构
[1] 太原理工大学信息工程学院
[2] 天津大学计算机科学与技术学院
关键词
语音识别; 鲁棒性; 深度自编码网络; GFCC特征; MFCC特征;
D O I
暂无
中图分类号
TN912.34 [语音识别与设备];
学科分类号
0711 ;
摘要
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。
引用
收藏
页码:49 / 54
页数:6
相关论文
共 10 条
[1]   关于在噪声环境下语音识别优化研究 [J].
张晓丹 ;
黄丽霞 ;
张雪英 .
计算机仿真, 2016, 33 (08) :172-176+291
[2]   语音识别中深度神经网络目标值优化 [J].
陈梦喆 ;
张晴晴 ;
潘接林 ;
颜永红 .
四川大学学报(工程科学版), 2016, 48 (01) :166-172
[3]   基于深度特征学习的藏语语音识别 [J].
王辉 ;
赵悦 ;
刘晓凤 ;
徐晓娜 ;
周楠 ;
许彦敏 .
东北师大学报(自然科学版), 2015, 47 (04) :69-73
[4]   基于深度学习神经网络的孤立词语音识别的研究 [J].
王山海 ;
景新幸 ;
杨海燕 .
计算机应用研究, 2015, 32 (08) :2289-2291+2298
[5]   基于QPSO算法优化的RBF神经网络设计 [J].
刘梓溪 ;
张航 .
中南大学学报(自然科学版), 2013, (S1) :27-30
[6]  
Adaptive bands filter bank optimized by genetic algorithm for robust speech recognition system[J]. 黄丽霞,G.Evangelista,张雪英.Journal of Central South University of Technology. 2011(05)
[7]  
深度学习[M]. 机械工业出版社 , 邓力, 2015
[8]  
Reverberant speech recognition combining deep neural networks and deep autoencoders augmented with a phone-class feature[J] . Masato Mimura,Shinsuke Sakai,Tatsuya Kawahara.EURASIP Journal on Advances in Signal Processing . 2015 (1)
[9]  
An overview of noise-robust automatic speech recognition[J] . Jinyu Li,Li Deng,Yifan Gong,Reinhold Haeb-Umbach.IEEE/ACM Transactions on Audio, Speech and Langua . 2014 (4)
[10]   A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554