语音情感特征提取方法和情感识别研究

被引:0
作者
郭鹏娟
机构
[1] 西北工业大学
关键词
情感特征; 全局特征; 短时特征; 语音情感识别;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
在目前的语音情感识别研究中,情感特征提取和情感识别方法多种多样,而且由于各文献使用的情感语音数据库不同,识别结果不具有可比性,很难客观地判别特征及建模方法,尤其是采用全局特征建立静态模型和采用短时特征建立动态模型的优劣。本文对含有高兴、生气、悲伤和平静4种情感的语音信号,分析和选择了反映情感变化信息的语音特征,并在项目组录制的情感语音数据库上做了情感识别实验。主要研究内容如下: 1.录制了情感语音数据库。录音文本选自标准TIMIT英语语音数据库,每人以高兴、生气、悲伤和平静四种情感重复朗读25句文本,共录制了46个人、四种感情的4600句语音。通过主观情感感知实验,筛选出情感表达最好的8个人的800句语音,用于文本的情感分析和识别实验。 2.基于情感语音数据库,观察并分析了在四种情感状态下,语音信号的基频、谱信息、语速等特征的变化规律,选择和定义了具有情感判别力的基频统计特征、共振峰、语速、平均能量等23维全局特征,其中除了一般的基频全局特征外,还定义了基频曲线起始端上升和下降斜率相关的特征。 3.研究了高斯混合模型(GMM)的参数训练和识别算法,为全局情感特征建立了GMM语音情感识别实验,结果表明:如果只采用基频相关的12维特征,悲伤、平静的正确识别率较高,而高兴和生气容易被相互误识。加入共振峰、语速、平均能量后,各类情感的识别率都有所提高,这是因为语速、平均能量对四种情感具有判别力,而共振峰能够区分高兴和生气。 4.研究了隐马尔科夫模型(HMM)的参数训练和识别算法,针对提取的语音Mel滤波器组倒谱特征(MFCC),以及一组包括短时能量、共振峰、子带能量的短时特征,做了基于HMM的情感识别实验,结果表明,MFCC不适用于语音情感识别,而添加了子带能量、基频等特征后,平均识别率提高了29.55%。 5.对基于GMM和基于HMM的语音情感识别的结果进行了比较,分析表明:对于语音情感识别,采用全局特征建立静态模型,还是采用短时特征并为情感变化的动态过程建模得到的识别率基本相当,重要的是采用具有什么物理意义的特征。
引用
收藏
页数:67
共 11 条
[1]
隐马氏模型的建模及其应用 [D]. 
张彩虹 .
国防科学技术大学,
2004
[2]
基于语音信号的情感识别研究 [D]. 
林奕琳 .
华南理工大学,
2006
[3]
语音信号数字处理.[M].杨行峻;迟惠生等编著;.电子工业出版社.1995,
[4]
基于语音声学特征的情感信息识别 [J].
蒋丹宁 ;
蔡莲红 .
清华大学学报(自然科学版), 2006, (01) :86-89
[5]
一种改进的高斯混合模型算法 [J].
许雯 ;
董林 ;
田家斌 .
信息工程大学学报, 2005, (02) :65-67
[6]
语音信号中的情感特征分析和识别的研究 [J].
赵力 ;
将春辉 ;
邹采荣 ;
吴镇扬 .
电子学报, 2004, (04) :606-609
[7]
情感语音信息中共振峰参数的提取方法 [J].
成新民 .
湖州师范学院学报, 2003, (06) :76-80
[8]
情感建模与情感识别 [J].
张颖 ;
罗森林 .
计算机工程与应用, 2003, (33) :98-102
[9]
情感计算理论与技术 [J].
罗森林 ;
潘丽敏 .
系统工程与电子技术, 2003, (07) :905-909
[10]
语音信号中的情感特征分析和识别的研究 [J].
赵力 ;
钱向民 ;
邹采荣 ;
吴镇扬 .
通信学报, 2000, (10) :18-24