语音中身份与情感信息提取及其在普适计算中的应用

被引:0
作者
王琛
机构
[1] 北京交通大学
关键词
MFCC; LPC; FFT; VQ; GMM;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
本文主要是对语音分析中的说话人和情感进行研究,并将此应用于一个普适计算e Learning系统。 说话人识别的工作重点在于对识别的实时性要求较高,将系统运行的时间放在首要位置,同时还要保证系统的高识别率。为此,在特征提取算法上进行了MFCC(Mel frequency cepstral coefficients)算法的改进,提出了快速差分MFCC算法,提高了系统的运行速度,同时还和FFT,LPC进行识别率的比较,得到了较好的识别效果;在进行特征分类时,主要是对距离测算法,矢量量化法(VQ)和高斯混合模型(GMM)进行分析研究,根据各种方法的优缺点,提出一种VQ和GMM的混合分类算法,此方法兼顾了识别率和运行速度两方面的因素,能够较好的满足实时性的要求。我们将提出的新方法和一些传统的方法进行实验对比,在分类方法为欧式距离的条件下,采用LPC算法的EER是14.3%,采用FFT算法的EER是11.4%,采用改进后的快速MFCC算法的EER是4.3%,同时快速MFCC算法所用的时间为4.0s,完全满足实时的要求。 本文在基于快速MFCC特征提取算法的基础上,引入差分MFCC,同时经过VQ+GMM分类算法,获得了比较好的识别效果:此时,采用LPC算法的EER是14.4%,采用FFT算法的EER是12.5%,采用改进后的快速MFCC算法的EER是9.4%,采用改进后的差分MFCC算法的EER是6.9%;最后是进行分类算法的比较,在特征提取算法为差分MFCC的基础上,采用欧式距离匹配法的EER是15%,采用VQ分类算法的EER是11.2%,采用GMM的EER是4.4%,采用VQ+GMM的EER是6.9%,虽然VQ+GMM的方法识别率有所降低,但是其运行时间从单独采用GMM的6.0s变为4.5s,能够更好的适应实时的要求。 在情感分析方面,主要用了语音中基频及其相关参数作为语音特征对说话人的情感进行统计判断。最后将说话人识别和情感分析放入e-Learning系统中,达到了一种无处不在的普适服务。
引用
收藏
页数:119
共 23 条
[1]
说话人识别的自适应算法研究 [D]. 
余浩 .
武汉理工大学,
2005
[2]
基于对等计算的企业应用集成系统的研究与实现 [D]. 
詹敏 .
中国科学院研究生院(软件研究所),
2002
[3]
Speaker Verification Using Adapted Gaussian Mixture Models.[J].Douglas A. Reynolds;Thomas F. Quatieri;Robert B. Dunn.Digital Signal Processing.2000, 1
[4]
Score Normalization for Text-Independent Speaker Verification Systems.[J].Roland Auckenthaler;Michael Carey;Harvey Lloyd-Thomas.Digital Signal Processing.2000, 1
[5]
A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167
[6]
MAXIMUM-LIKELIHOOD LINEAR-REGRESSION FOR SPEAKER ADAPTATION OF CONTINUOUS DENSITY HIDDEN MARKOV-MODELS [J].
LEGGETTER, CJ ;
WOODLAND, PC .
COMPUTER SPEECH AND LANGUAGE, 1995, 9 (02) :171-185
[7]
计算机语音技术.[M].朱民雄等编著;.北京航空航天大学出版社.2002,
[8]
语音信号处理.[M].易克初等编著;.国防工业出版社.2000,
[9]
语音信号数字处理.[M].[美]拉宾纳(L·R·Rabiner);[美]谢弗(R·W·Schafer) 著;朱雪龙 译.科学出版社.1983,
[10]
基于MFCC的说话人识别系统 [J].
郭春霞 ;
裘雪红 .
电子科技, 2005, (11)