基于神经网络的声纹识别系统设计与实现

被引：0

作者：

郭华

机构：

[1] 上海交通大学

关键词：

声纹识别; 特征提取; 人工神经网络; 粒子群优化算法;

D O I：

暂无

年度学位：

2008

学位类型：

硕士

导师：

吴刚; 梁恺军;

摘要：

声纹识别又称说话人识别(Speaker Recognition, SR),是近年来兴起的一种生物识别技术,声纹识别以其独特的方便性、经济性和准确性等优势受到世人瞩目。近年来,随着科学技术的发展,声纹识别技术已经得到了极大的发展,它在公安侦察、声控系统、医疗诊断、电子金融等行业和领域有着极其广阔的市场应用前景。声纹识别根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份。与语音识别不同,声纹识别技术并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的信息特征。声纹识别有几个关键技术:首先是特征选取的问题,从声学或者统计学的角度从声音信号中提取某些特征参数,用这些特征参数来描述说话人的声音特征。其次是识别模型,用机器学习模型去学习、记忆说话人特征,从而达到识别的目的。本文系统阐述了声纹识别技术的原理与一般流程,并重点研究了: 1、声纹识别系统的语音特征参数提取。详细阐述了声道模型、线性预测编码(LPC)分析、LPC倒谱系数、Mel倒谱系数的求解; 2、声纹识别的识别方法和模型。重点阐述了几种经典的主要声纹识别模型,包括隐马尔可夫模型(HMM)、高斯混合模型(GMM)、矢量量化模型(VQ)、人工神经网络及支持向量机(SVM)等。基于基本声纹识别理论和技术的研究,本文基于线性倒谱系数(LPCC)和Mel倒谱系数(MFCC)两种主要语音特征参数,采用人工神经网络作为识别模型,研究设计了一个声纹识别的原型系统。MFCC是目前使用最广泛的语音特征之一,具有计算简单、区分能力好等突出的优点;LPCC参数则具有计算高效的优点,并且比较彻底地去掉了语音产生过程中的激励信息,主要反映了声道响应,往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性,在声纹识别中取得了较好的效果,因而本文将LPCC和MFCC参数作为研究和选取的主要特征参数。神经网络的参数优化是神经网络技术研究与应用的关键,目前一般的研究大多采用遗传算法(GA)或者BP算法等进行网络参数的优化,本文将粒子群优化算法(PSO)应用于声纹识别神经网络。PSO是一种群智能技术,与GA相比,PSO算法具有编码简单,算法高效并易于实现、理解等优点。在声纹识别原型系统实现的基础上,本文在实验室环境下利用该系统进行了大量的声纹识别实验,对系统进行了系统的识别测试。这些实验以不同的方法采集实验语料,包括与文本相关的语料,与文本无关的语料,以及短时语料、较长时间语料等,文章还对不同方法方式采集的语音做的实验进行了对比分析。实验结果表明,PSO和ANN结合模型在声纹识别上具有很好的识别效果,是比较有效的识别方法。

引用

页数：68

共 18 条

[1]

A robust evolutionary algorithm for training neural networks [J].

Yang, JM ;

Kao, CY .

NEURAL COMPUTING & APPLICATIONS, 2001, 10 (03) :214-230

[2]

Reliable classification using neural networks: a genetic algorithm and backpropagation comparison [J].

Sexton, RS ;

Dorsey, RE .

DECISION SUPPORT SYSTEMS, 2000, 30 (01) :11-22

[3]

Recent advances in speaker recognition [J].

Furui, S .

PATTERN RECOGNITION LETTERS, 1997, 18 (09) :859-872

[4]

Evolution strategy..Rechenberg I;.Proceedings of Computational Intelligence — Imitating Life.1994,

[5]

Swarms; phase transition; and collective intelligence..Millonas; M. M;.Artificial life III.1994,

[6]

Multi-grained modeling with pattern specific maximum likelihood transformations for text-independent speaker recognition..CHAUDHARI U V;NAVRATIL J;MAES S H;.IEEE Transaction on Speech and Audio Processing.2003, 01

[7]

语音信号处理.[M].赵力编著;.机械工业出版社.2003,

[8]

语音编码.[M].王炳锡编著;.西安电子科技大学出版社.2002,

[9]

语音信号处理.[M].易克初等编著;.国防工业出版社.2000,

[10]

人工神经元网络原理与应用.[M].王旭等编著;.东北大学出版社.2000,

← 1 2 →