语音伪造及检测技术研究综述

被引:52
作者
任延珍 [1 ,2 ]
刘晨雨 [2 ]
刘武洋 [2 ]
王丽娜 [1 ,2 ]
机构
[1] 空天信息安全与可信计算教育部重点实验室
[2] 武汉大学国家网络安全学院
关键词
语音伪造; 语音伪造检测; 语音合成; 语音转换; 说话人验证; 对抗样本;
D O I
暂无
中图分类号
TN912.3 [语音信号处理]; TP309 [安全保密];
学科分类号
081002 [信号与信息处理]; 081206 [计算机网络与安全];
摘要
语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造(Deepfake)正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核心技术之一。近年来语音伪造技术在拟人度、自然度方面有了显著进步,使得语音伪造检测技术面临着更大的挑战。本文对当前主流的语音伪造和伪造语音检测技术研究现状进行综述,主要包括:1)对主流语音伪造技术,包括语音合成、语音转换和语音对抗样本的基本概念、技术发展历程和研究进展进行综述;2)对伪造语音检测技术的基本概念、性能评价指标、主要技术实现原理和性能效果进行综述;3)对伪造语音检测相关的主流竞赛、常用数据集和可用代码工具资源进行介绍;最后对语音伪造和检测技术现存的挑战性问题和未来的研究方向进行讨论。
引用
收藏
页码:2412 / 2439
页数:28
相关论文
共 24 条
[1]
语音伪造与鉴伪的发展与挑战 [J].
陶建华 ;
傅睿博 ;
易江燕 ;
王成龙 ;
汪涛 .
信息安全学报, 2020, 5 (02) :28-38
[2]
Voice conversion spoofing detection by exploring artifacts estimates[J] R. Hemavathi;R. Kumaraswamy Multimedia Tools and Applications 2021,
[3]
Speech frame selection for spoofing detection with an application to partially spoofed audio-data[J] A Kishore Kumar;Dipjyoti Paul;Monisankha Pal;Md Sahidullah;Goutam Saha International Journal of Speech Technology 2021,
[4]
Learning Efficient Representations for Fake Speech Detection[J] Nishant Subramani;Delip Rao Proceedings of the AAAI Conference on Artificial Intelligence 2020,
[5]
Long-term high frequency features for synthetic speech detection[J] Jichen Yang;Rohan Kumar Das Digital Signal Processing 2020,
[6]
A Kernel Density Estimation Based Loss Function and its Application to ASV-Spoofing Detection[J] Alejandro Gomez Alanis;Jose A. Gonzalez Lopez;Antonio M. Peinado IEEE Access 2020,
[7]
Significance of Subband Features for Synthetic Speech Detection[J] Yang Jichen;Das Rohan Kumar;Li Haizhou IEEE Transactions on Information Forensics and Security 2020,
[8]
Detecting Replay Attacks Using Multi-Channel Audio: A Neural Network-Based Method[J] Yuan Gong;Jian Yang;Christian Poellabauer IEEE Signal Processing Letters 2020,
[9]
Extraction of Octave Spectra Information for Spoofing Attack Detection[J] Yang Jichen;Das Rohan Kumar;Zhou Nina IEEE/ACM Transactions on Audio; Speech; and Language Processing 2019,
[10]
A Light CNN for Deep Face Representation With Noisy Labels.[J] Xiang Wu;Ran He;Zhenan Sun;Tieniu Tan IEEE Trans. Information Forensics and Security 2018,