基于深层置信网络的说话人信息提取方法

被引:5
作者
陈丽萍 [1 ]
王尔玉 [2 ]
戴礼荣 [1 ]
宋彦 [1 ]
机构
[1] 中国科学技术大学电子工程与信息科学系
[2] 腾讯控股有限公司
关键词
全差异空间因子; 说话人确认; 深层置信网络; 锚模型;
D O I
10.16451/j.cnki.issn1003-6059.2013.12.001
中图分类号
TN912.34 [语音识别与设备];
学科分类号
摘要
在基于全差异空间因子(i-Vector)的说话人确认系统中,需进一步从语音段的i-Vector表示中提取说话人相关的区分性信息,以提高系统性能.文中通过结合锚模型的思想,提出一种基于深层置信网络的建模方法.该方法通过对i-Vector中包含的复杂差异信息逐层进行分析、建模,以非线性变换的形式挖掘出其中的说话人相关信息.在NIST SRE 2008核心测试电话训练-电话测试数据库上,男声和女声的等错误率分别为4.96%和6.18%.进一步与基于线性判别分析的系统进行融合,能将等错误率降至4.74%和5.35%.
引用
收藏
页码:1089 / 1095
页数:7
相关论文
共 3 条
[1]  
Speaker Verification Using Adapted Gaussian Mixture Models[J] . Douglas A. Reynolds,Thomas F. Quatieri,Robert B. Dunn. Digital Signal Processing . 2000 (1)
[2]  
Introduction to statistical pattern rec-ognition .2 FUKUNAGA K. New York . 1990
[3]  
Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition .2 George E. Dahl,Dong Yu,Li Deng. IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING . 2012