语音转换的关键技术研究

被引:0
作者
李波
机构
[1] 国防科学技术大学
关键词
语音转换; 基音周期变换; 频谱倾斜; 频谱包络转换; MFCC;
D O I
暂无
年度学位
2005
学位类型
博士
摘要
语音转换是要改变一个说话人的语音,使之听起来象是另外一个人的语音。语音转换是语音信号处理领域的一个较新的分支,具有很重要的理论价值和实用价值。语音转换用于文-语转换系统中,可以容易地合成出不同说话人个性特征的语音;它也可以用于电影配音、极低速率语音编码、语音通信的说话人加密、语音的说话人模拟等。语音转换的研究对语音分析、语音编码、语音合成、语音增强、语音识别、说话人识别等语音信号处理的其它各个领域有重要的促进作用。本文主要围绕语音转换中的基音周期变换和谱包络转换两项关键技术进行研究,研究了基于小语料库训练的语音转换系统。 对基音周期变换方法的研究:在基于宽带TD-PSOLA基音周期变换方法的研究中,发现分析窗长取源语音和目标语音两者较小基音周期两倍的效果优于取两者较大基音周期两倍的效果,对其原因进行了分析研究。FD-PSOLA中的压缩-扩展法在进行基音周期变换时,会引起相位谱压缩或扩展现象,从而使相位变化率发生变化,这会引起基音周期变换后语音的失真,为克服相位变化率的变化,我们提出分段线性相位建模方法,基于该相位模型在频域通过压缩-扩展法进行基音周期变换时,可以保证各谐波处的相位变化率近似不变;对每一帧进行处理后的语音信号帧中心不会发生漂移,而且与原语音波形更加接近,从而提高基音周期变换语音质量。FD-PSOLA中压缩-扩展法在进行基音周期变换时,不仅会引起相位的变化率发生变化,也会引起基频谐波的压缩-扩展现象,这同样是不合理的,会引起基音周期变换后语音质量的下降;为此,我们提出伪谐波语音分析-合成模型;基于该语音模型在进行基频变换时可以保证各基频谐波结构不发生压缩-扩展现象,从而高质量的实现基音周期变换,基于该模型也可以很方便的实现时长和能量的变换。 对频谱包络表示相关问题的研究:基于时域信号求解自相关方程是计算LPC系数的传统方法,当LPC阶数较低时得到的LPC谱包络平滑但不够准确,而当LPC阶数较高时,女声语音的LPC谱包络易受基频谐波影响且常比较尖锐,而基于语音信号的幅度谱包络求解得到的LPC系数能比较好的克服这一缺点。对LPC参数与LSF参数相互转换进行研究,推导出几种不同的由LPC参数求解LSF参数的方法。基于幅度谱包络求得的倒谱谱包络较基于幅度谱求得的谱包络更加准确,在此基础上,提出基于Mel尺度拉伸阶梯谱包络求解MFCC参数的方法,该方法求解简单,性能稳定,得到的MFCC-线性谱包络能非常准确的表示低频处的谱包络。 对谱包络转换方法的研究:研究了目前报道的各种谱包络转换实现方法,着重研究基于双线性函数来进行谱包络转换。基于双线性函数进行谱包络转换,具有转换参数少(只有一个)、易保持系统稳定等优良特性,特别适合小词汇量训练的语音转换系统;研究了基于求解频谱搬移系统单位冲击响应的方法;提出两种求解频谱搬移后LPC系数的方法;提出基于DFT分析和LPCC谱包络进行谱包络变换方法,并提出三种求解频谱搬移后LPCC谱包络的算法;提出基于DFT分析和DCT倒谱包络进行谱包络变换方法,并提出三种求解频谱搬移后DCT倒谱包络的算法;提出通过训练得到转换参数的方法。 对频谱倾斜补偿的研究:频谱倾斜也是语音信号的一个重要个性特征,研究利用临界倾斜滤波器的两个函数进行频谱倾斜补偿,并研究了通过训练自动提取频谱倾斜补偿参数的方法。频谱倾斜补偿可以比较有效的弥补双线性函数不能改变频谱幅度的缺点,使得到的转换谱包络更加准确。
引用
收藏
页数:177
共 19 条
[1]
HMM在说话人识别中的应用 [J].
赵力 ;
邹采荣 ;
吴镇扬 .
电路与系统学报, 2001, (03) :51-57
[2]
基于数据挖掘的普通话韵律规则学习 [J].
朱廷劭 ;
高文 .
计算机学报, 2000, (11) :1179-1183
[3]
男女嗓音源特性的比较研究 [J].
王素品 ;
万明习 ;
赵守国 ;
张锐 .
声学学报, 1999, (02) :128-136
[4]
高性能基音检测新方法 [J].
贺前华 ;
SamKwong .
华南理工大学学报(自然科学版), 1999, (01)
[5]
基于LMA声道模型的语声合成新方法 [J].
刘庆峰 ;
王仁华 .
声学学报, 1998, (03) :271-278
[6]
线性预测编码在变音长语音合成中的应用 [J].
梁志强 ;
李海洲 .
华南理工大学学报(自然科学版), 1998, (03)
[7]
基音检测的小波快速算法 [J].
赵瑞珍 ;
宋国乡 .
电子科技, 1998, (01)
[8]
基于线性预测和小波变换的语音基音周期检测新算法 [J].
马霓 ;
韦岗 ;
应益荣 ;
梁家荣 .
西北建筑工程学院学报(自然科学版), 1997, (02) :36-42
[9]
语音与图像的数字信号处理.[M].(日)谷萩隆嗣编著;朱虹译;.科学出版社.2003,
[10]
语音信号处理.[M].赵力编著;.机械工业出版社.2003,