用于孤立数字语音识别的一种组合降维方法

被引:9
作者
宋青松
田正鑫
孙文磊
吴小杰
安毅生
机构
[1] 长安大学信息工程学院
基金
中国博士后科学基金; 中央高校基本科研业务费专项资金资助;
关键词
语音识别; 主成分分析; 受限玻尔兹曼机;
D O I
暂无
中图分类号
TN912.34 [语音识别与设备];
学科分类号
摘要
针对孤立数字语音识别的噪声鲁棒性问题,提出了一个组合降维方法。该方法由梅尔频率倒谱系数(MFCC)特征提取、线性降维、受限玻尔兹曼机(RBM)、Softmax分类器4个功能模块依次组成;基于主成分分析(PCA)基本原理对MFCC特征向量实现了降维并且统一维度的目的;通过RBM对降维后的特征向量进行学习,改善了后端Softmax分类器的分类性能,RBM的预训练由对比散度算法完成,微调过程使用共轭梯度算法。采用TI-46孤立数字语音库和NOISEX-92典型噪声数据库对方法进行了测试,实验结果表明,该方法可以获得96.09%的正确识别率,相对于常规神经网络识别方法,噪声鲁棒性得到了提高。
引用
收藏
页码:42 / 46
页数:5
相关论文
共 5 条
[1]   受限波尔兹曼机 [J].
张春霞 ;
姬楠楠 ;
王冠伟 .
工程数学学报, 2015, 32 (02) :159-173
[2]   一个PRP型共轭梯度法的收敛性 [J].
黄海 ;
林穗华 .
西南大学学报(自然科学版), 2012, (03) :28-31
[3]  
Comparison of Different Implementations of MFCC[J]. 郑方 ,张国亮 ,宋战江. Journal of Computer Science and Technology. 2001(06)
[4]   Noise-Robust Speech Recognition Through Auditory Feature Detection and Spike Sequence Decoding [J].
Schafer, Phillip B. ;
Jin, Dezhe Z. .
NEURAL COMPUTATION, 2014, 26 (03) :523-556
[5]  
PCA-Based Speech Enhancement for Distorted Speech Recognition[J] . Tetsuya Takiguchi,Yasuo Ariki. Journal of Multimedia . 2007 (5)