基于参数转换的语音深度伪造及其对声纹认证的威胁评估

被引:6
作者
苗晓孔
孙蒙
张雄伟
李嘉康
张星昱
机构
[1] 陆军工程大学指挥控制工程学院智能信息处理实验室
关键词
语音转换; 声纹认证; 对抗攻击; 深度学习;
D O I
10.19363/J.cnki.cn10-1380/tn.2020.11.05
中图分类号
TN912.3 [语音信号处理];
学科分类号
081002 [信号与信息处理];
摘要
声纹认证系统作为一种生物认证或识别机制,在人们的日常生活中得已经到了广泛应用。但目前该系统在实际应用中容易受到欺骗攻击,还存在一定的风险。语音转换通常是指将一个人的声音个性化特征参数通过"修改变换",使之听起来像另外一个人的声音,同时保持说话内容信息不变的技术,用语音转换可生成特定目标说话人的语音,并在听觉感知上难以区分转换语音和目标语音。但是对于声纹认证系统来说,听觉上感知的相似有时还不足以欺骗认证系统。本文通过分析语音转换和声纹认证过程中所提取共同特征向量——梅尔倒谱,通过采用改进深度残差的双向长短时记忆网络对联合动态特征的梅尔倒谱实现更准确转换,同时改变损失函数优化转换网络性能并引入全局均值滤波滤除转换过程中产生的倒谱杂波,进而整体提升转换语音的质量。在提升语音转换相似度的同时保证主观感知不下降,并将转换后的语音用于欺骗两个广为采用的声纹认证系统,欺骗实验表明,该系统能够成功地欺骗这些认证系统,并且具有很高的成功率。
引用
收藏
页码:53 / 59
页数:7
相关论文
共 5 条
[1]
IBM Voice Conversion Systems for 2007 TC-STAR Evaluation.[J].双志伟;Raimo Bakis;秦勇;.Tsinghua Science and Technology.2008, 04
[2]
Exemplar-Based Sparse Representation With Residual Compensation for Voice Conversion [J].
Wu, Zhizheng ;
Virtanen, Tuomas ;
Chng, Eng Siong ;
Li, Haizhou .
IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2014, 22 (10) :1506-1521
[3]
IBM Voice Conversion Systems for 2007 TC-STAR Evaluation.[J].Zhiwei Shuang;Raimo Bakis;Yong Qin.Tsinghua Science & Technology.2008, 4
[4]
Speaker Verification Using Adapted Gaussian Mixture Models.[J].Douglas A. Reynolds;Thomas F. Quatieri;Robert B. Dunn.Digital Signal Processing.2000, 1
[5]
Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds 1 Speech files available. See http://www.elsevier.nl/locate/specom 1.[J].Hideki Kawahara;Ikuyo Masuda-Katsuse;Alain de Cheveigné.Speech Communication.1999, 3-4