多粒度特征融合的维度语音情感识别方法

被引:10
作者
陈婧
李海峰
马琳
陈肖
陈晓敏
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
维度语音情感识别; 多粒度特征融合; 基于认知机理的回馈神经网络; 认知机理;
D O I
10.16798/j.issn.1003-0530.2017.03.018
中图分类号
TN912.34 [语音识别与设备];
学科分类号
0711 ;
摘要
针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征演化规律缺失的问题,本文提出了一种基于不同时间单元的多粒度特征提取方法,提取了短时帧粒度、中时段粒度以及长时窗粒度特征,并提出了一种可以融合多粒度特征的基于认知机理的回馈神经网络(Cognition-Inspired Recurrent Neural Network,CIRNN)。该网络模拟了人脑处理语音信号时"循序渐进"的过程,通过融合多粒度特征,使得不同时间单元的特征均参与网络训练,既突出了情感的时序性,也保留了全局特性对情感识别的作用,实现多层级信息融合。该网络同时模拟大脑运用以往经验模式进行对比的过程,在网络中引入记忆层,用于记忆上文情感特征,强化了上下文信息对识别的影响作用。本文将该方法用于VAM维度语料库的维度情感识别,分别从Activation、Dominance、Valence三个维度进行测试,平均相关系数为0.66,识别结果明显优于传统ANN和SVR的识别结果。
引用
收藏
页码:374 / 382
页数:9
相关论文
共 19 条
[1]   语音情感识别研究进展综述 [J].
韩文静 ;
李海峰 ;
阮华斌 ;
马琳 .
软件学报, 2014, 25 (01) :37-50
[2]   基于长短时特征融合的语音情感识别方法 [J].
韩文静 ;
李海峰 ;
韩纪庆 .
清华大学学报(自然科学版), 2008, (S1) :708-714
[3]   A Regression Approach to Speech Enhancement Based on Deep Neural Networks [J].
Xu, Yong ;
Du, Jun ;
Dai, Li-Rong ;
Lee, Chin-Hui .
IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2015, 23 (01) :7-19
[4]  
Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure[J] . Arianna Mencattini,Eugenio Martinelli,Giovanni Costantini,Massimiliano Todisco,Barbara Basile,Marco Bozzali,Corrado Di Natale.Knowledge-Based Systems . 2014
[5]  
Prediction of Asynchronous Dimensional Emotion Ratings from Audiovisual and Physiological Data[J] . Fabien Ringeval,Florian Eyben,Eleni Kroupi,Anil Yuce,Jean-Philippe Thiran,Touradj Ebrahimi,Denis Lalanne,Bj?rn Schuller.Pattern Recognition Letters . 2014
[6]  
Continuous emotion recognition with phonetic syllables[J] . A. Origlia,F. Cutugno,V. Galatà.Speech Communication . 2014
[7]   Shape-based modeling of the fundamental frequency contour for emotion detection in speech [J].
Arias, Juan Pablo ;
Busso, Carlos ;
Yoma, Nestor Becerra .
COMPUTER SPEECH AND LANGUAGE, 2014, 28 (01) :278-294
[8]   Emotion recognition from speech using global and local prosodic features [J].
Rao K.S. ;
Koolagudi S.G. ;
Vempada R.R. .
International Journal of Speech Technology, 2013, 16 (2) :143-160
[9]  
Study of Speech Emotion Recognition Based on Prosodic Parameters and Facial Expression Features[J] . Lei Jiang,Xiao Zhang Zhang,Yu Jie Bai,Chang Liang Tang.Applied Mechanics and Materials . 2013 (241)
[10]  
LSTM-Modeling of continuous emotions in an audiovisual affect recognition framework[J] . Image and Vision Computing . 2012