基于发音特征的声效相关鲁棒语音识别算法

被引:7
作者
晁浩
宋成
彭维平
机构
[1] 河南理工大学计算机科学与技术学院
关键词
语音识别; 声效; 发音特征; 多模型框架; 孤立词;
D O I
暂无
中图分类号
TN912.34 [语音识别与设备];
学科分类号
0711 ;
摘要
针对声效(VE)相关的语音识别鲁棒性问题,提出了基于多模型框架的语音识别算法。首先,分析了不同声效模式下语音信号的声学特性以及声效变化对语音识别精度的影响;然后,提出了基于高斯混合模型(GMM)的声效模式检测方法;最后,根据声效检测的结果,训练专门的声学模型用于耳语音识别,而将发音特征与传统的谱特征一起用于其余4种声效模式的语音识别。基于孤立词识别的实验结果显示,采用所提方法后语音识别准确率有了明显的提高:与基线系统相比,所提方法 5种声效的平均字错误率降低了26.69%;与声学模型混合语料训练方法相比,平均字错误率降低了14.51%;与最大似然线性回归(MLLR)自适应方法相比,平均字错误率降低了15.30%。实验结果表明:与传统谱特征相比发音特征对于声效变化更具鲁棒性,而多模型框架是解决声效相关的语音识别鲁棒性问题的有效方法。
引用
收藏
页码:257 / 261
页数:5
相关论文
共 15 条
[1]   Acoustic analysis of consonants in whispered speech [J].
Jovicic, Slobodan T. ;
Saric, Zoran .
JOURNAL OF VOICE, 2008, 22 (03) :263-274
[2]   The contribution of changes in F0 and spectral tilt to increased intelligibility of speech produced in noise [J].
Lu, Youyi ;
Cooke, Martin .
SPEECH COMMUNICATION, 2009, 51 (12) :1253-1262
[3]   基于熵函数的耳语音声韵分割法 [J].
栗学丽 ;
丁慧 ;
徐柏龄 .
声学学报, 2005, (01) :69-75
[4]   Impact of vocal effort variability on automatic speech recognition [J].
Zelinka, Petr ;
Sigmund, Milan ;
Schimmel, Jiri .
SPEECH COMMUNICATION, 2012, 54 (06) :732-742
[5]  
Robustness of spectro-temporal features against intrinsic and extrinsic variations in automatic speech recognition[J] . Bernd T. Meyer,Birger Kollmeier. &nbspSpeech Communication . 2010 (5)
[6]   汉语耳语音孤立字识别研究 [J].
杨莉莉 ;
林玮 ;
徐柏龄 .
应用声学, 2006, (03) :187-192
[7]  
Hidden Markov model toolkit. YOUNG S,EVERMANN G,GALES M,et al. http://htk.eng.cam.ac.uk/docs/docs.shtml . 2013
[8]  
Analysis and compensation of stressed and noisy speech with application to robust automatics recognition. HANSEN J H L. . 1988
[9]  
Advancements in whisper-island detection within normally phonated audio streams. ZHANG C,HANSEN J H L. INTERSPEECH 2009:Proceedings of the 10th Annual Conference of the International Speech Communication Association . 2009
[10]  
An entropy based feature for whisperisland detection within audio streams. ZHANG C,HANSEN J H L. INTERSPEECH 2008:Proceedings of the 9th Annual Conference of the International Speech Communication Association . 2008