基于长短时特征融合的语音情感识别方法

被引:18
作者
韩文静
李海峰
韩纪庆
机构
[1] 哈尔滨工业大学计算机科学与技术学院 哈尔滨150001
[2] 哈尔滨工业大学计算机科学与技术学院
基金
教育部留学回国人员科研启动基金;
关键词
模式识别; 语音情感识别; 情感特征; Elman神经网络;
D O I
10.16511/j.cnki.qhdxxb.2008.s1.023
中图分类号
TP391.42 [];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音帧的时序特征。针对这2类基于不同时长的情感特征均不能够最有效地表达情感信息的问题,该文提出使用"语段特征"用于识别,并给出了各类情感状态对应的"最佳识别段长"。为进一步提高系统识别性能,该文还构建了全局控制Elman神经网络用于将全局统计特征与基于语段的时序特征相融合。实验表明:融合长短时特征后的平均系统识别率可达66.0%,与单独使用各类特征或语段特征相比分别提高了5.9%和1.7%,同时有效降低了各情感之间的混淆度。
引用
收藏
页码:708 / 714
页数:7
相关论文
共 6 条
[1]   基于语音声学特征的情感信息识别 [J].
蒋丹宁 ;
蔡莲红 .
清华大学学报(自然科学版), 2006, (01) :86-89
[2]   基于基音参数规整及统计分布模型距离的语音情感识别 [J].
王治平 ;
赵力 ;
邹采荣 .
声学学报, 2006, (01) :28-34
[3]  
Emotion recognition and its application to computer agents with spontaneous interactive capabilities[J] . R Nakatsu,J Nicholson,N Tosa.Knowledge-Based Systems . 2000 (7)
[4]   Prosodic and lexical indications of discourse structure in human-machine interactions [J].
Swerts, M ;
Ostendorf, M .
SPEECH COMMUNICATION, 1997, 22 (01) :25-41
[5]  
An acoustic study of emotions expressed in speech .2 Yildirim S,Bulut M,Lee C M,et al. ICSLP . 2004
[6]  
Affective computing .2 Picard Rosalind W. Perceptualcomputing section technical report.TR 321 . 1995