一种基于受限玻尔兹曼机的说话人特征提取算法

被引:19
作者
酆勇 [1 ,2 ]
熊庆宇 [1 ]
石为人 [1 ]
曹俊华 [2 ]
机构
[1] 重庆大学自动化学院
[2] 重庆市公安局
关键词
说话人确认; 身份认证矢量; 深度学习; 受限玻尔兹曼机; 线性判别分析;
D O I
10.19650/j.cnki.cjsi.2016.02.003
中图分类号
TP391.41 [];
学科分类号
080203 ;
摘要
基于总体空间差异模型的身份认证矢量(即i-vector)已经在说话人识别任务中得到了广泛应用。本文提出了一种基于受限玻尔兹曼机(RBM)的说话人特征向量提取方法来替代总体差异建模的特征提取方法。该方法通过训练得到RBM的模型参数,之后利用隐层输出来表征输入语音超向量的说话人信息。文中比较了不同结构和模块(包括构建RBM的2种单元分布、线性判别分析等)对说话人确认性能的影响。所提方法作为一种新的i-vector特征表示方法,在NIST SRE 2008上取得了和ivector说话人基线系统相当的性能。通过与i-vector基线系统进行融合,系统性能进一步提升。在NIST SRE 2008女性电话语音测试集和男性电话语音测试集上的等错误率分别降至6.83%和4.73%。
引用
收藏
页码:256 / 262
页数:7
相关论文
共 6 条
[1]   基于深层置信网络的说话人信息提取方法 [J].
陈丽萍 ;
王尔玉 ;
戴礼荣 ;
宋彦 .
模式识别与人工智能, 2013, 26 (12) :1089-1095
[2]   基于PSOA聚类和KMP算法的说话人识别方法 [J].
安冬 ;
荣超群 ;
杨丹 ;
王骄 .
仪器仪表学报, 2013, 34 (06) :107-112
[3]   基于维纳滤波和混合模型的说话人识别 [J].
邱政权 ;
范小春 ;
王俊年 .
仪器仪表学报, 2009, 30 (07) :1436-1440
[4]   A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554
[5]   Training products of experts by minimizing contrastive divergence [J].
Hinton, GE .
NEURAL COMPUTATION, 2002, 14 (08) :1771-1800
[6]  
Speaker Verification Using Adapted Gaussian Mixture Models[J] . Douglas A. Reynolds,Thomas F. Quatieri,Robert B. Dunn.Digital Signal Processing . 2000 (1)