情感语音识别与合成的研究

被引:0
作者
孙颖
机构
[1] 太原理工大学
关键词
情感语音识别; 语音合成; 情感语音数据库; 人耳听觉模型; 声门特征; 情感语音合成;
D O I
暂无
年度学位
2011
学位类型
博士
导师
摘要
情感语音识别与合成技术是当前语音信号处理研究的热点问题,目的是使计算机既能够听懂人类语言所携带的情感成分,又可以说出人类语言,实现人机智能通信,使计算机与人的交流畅通无阻。情感语音识别是语音识别技术的一个新的分支,由于情感本身概念的不确定性及语音中情感特征的模糊性,使得情感语音识别成为一个难点问题。语音合成技术一直以来研究者众多,但是,如何能够构建出一个存储量小,自然度高的合成系统一直是需要重点解决的问题。本文紧紧抓住情感语音识别的难点和语音合成的重点,提出了基于人耳听觉特性模型的情感语音识别特征,并用声门特征对基于人耳听觉的情感语音特征进行了补偿优化;实现了基于隐马尔科夫模型的语音合成系统,在此基础上,对系统合成的语音进行了参数分析和修改,将情感特征加入了合成语音,实现了基于隐马尔科夫模型的情感语音合成。 本文的主要工作和创新性成果如下: (1)在深入研究情感理论的基础上,分析了韵律特征在不同情感中的表现,构建了包括“高兴”、“生气”和“中立”三种情感状态,汉语普通话和英语两种语言的TYUT情感语音数据库。通过主观辨听实验和典型特征的分析实验,确定了TYUT情感语音数据库的有效性。 (2)将基于人耳听觉特性模型的过零峰值幅度特征用于情感语音识别,并将该特征中用于代表频率与说话速率的过零特征与Teager能量算子中的非线性能量特征有机地结合在一起,提出了一种基于人耳听觉特性模型的新特征——过零最大Teager能量算子特征,新特征在情感语音识别实验中表现出良好的性能。 (3)将人的发音模型与听觉模型相结合,通过分析声门特征对人耳听觉模型特征的影响,提出了用声门特征补偿人耳听觉特征的新算法,并将补偿后的新算法用于情感识别实验,得到了较高的识别率。新算法表现出了优良的性能。 (4)针对实际交谈中,背景环境复杂的情况,设计了一种混合情感语音数据库的实验,用以检验情感特征的数据库独立性。通过对混合语音数据库实验结果的对比,发现过零最大Teager能量算子特征是本文所有特征中,数据库依赖性最小的特征。 (5)为了能够合成出具有不同情感的语句,首先,搭建了基于隐马尔科夫模型的情感语音合成系统,接着对合成出的语句进行了参数修改,最终实现了基于隐马尔科夫模型的情感语音合成,初步得到了合成的情感语音。
引用
收藏
页数:150
共 83 条
[1]
情感语音韵律自动生成方法的研究.[A].陶建华;康永国;.中国声学学会2006年全国声学学术会议.2006,
[2]
语音识别中的后处理技术研究 [D]. 
吴斌 .
北京邮电大学,
2008
[3]
语音情感识别的关键技术研究 [D]. 
尤鸣宇 .
浙江大学,
2007
[4]
基于隐马尔科夫模型的语音合成技术研究 [D]. 
吴义坚 .
中国科学技术大学,
2006
[5]
基于X射线相位衬度的人耳解剖结构成像.[J].石宏理;王杰;罗述谦;.中国医疗器械杂志.2010, 06
[6]
一种孤立词语音识别的实现方法及改进 [J].
刘丽媛 ;
严家明 .
现代电子技术, 2010, 33 (16) :109-112
[7]
声门激励信号的获取及其应用 [J].
孙燕 ;
姜占才 .
电脑开发与应用, 2010, 23 (08) :13-15
[8]
改进的混合MFCC语音识别算法研究 [J].
袁正午 ;
肖旺辉 .
计算机工程与应用, 2009, 45 (33) :108-110
[9]
面向情感变化检测的汉语情感语音数据库 [J].
徐露 ;
徐明星 ;
杨大利 .
清华大学学报(自然科学版), 2009, 49(S1) (自然科学版) :1413-1418
[10]
科大讯飞胜算几何 [J].
李瑛 .
IT经理世界, 2009, (09) :85-87