基于稀疏表示的音频修复算法研究

被引:0
作者
王君地
机构
[1] 电子科技大学
关键词
音频修复; 稀疏表示; 字典训练; INK-SVD; OMP;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
在现实生活中,音频常常会因为环境噪声、网络拥塞和设备限幅等影响,而产生诸如脉冲干扰、片段丢失和削顶失真等情况的受损,降低音频的可听度和可懂度。如果音频应用于语音识别、说话人辨识等情况,还会导致相应识别率下降,所以需要对受损音频进行数字化修复,还原出受损部分,改善音频质量。针对目前音频修复的研究现状,本文采用基于稀疏表示的音频修复算法。基于稀疏表示的音频修复是指在音频为稀疏信号的前提下,利用受损音频中可靠部分的数据,在过完备字典中进行稀疏表示,然后用稀疏重建的方法来恢复出受损部分。因为音频中相邻帧之间信息存在着冗余,丢失的部分信息可以利用周围冗余信息来补全。算法分为过完备字典构造和稀疏表示两个环节。本文在前人工作的基础上,针对这两个环节进行了研究改进:1.过完备字典训练算法对于过完备字典构造,在之前的文献中采用固定字典,但是音频种类繁多,不同的音频具有不同的基频和共振峰等特征信息,因此固定字典不能很好的反映出特定音频的结构化特征,针对这一问题,本文采用训练的方法得到自适应字典,在选择字典训练算法时,为了兼顾算法的高效性和字典中原子的相关性,本文选用解耦合的K-SVD字典训练算法,即INK-SVD算法,来对音频进行训练。2.稀疏表示算法对于稀疏表示,在之前的文献中多使用OMP算法,这种算法不会选择重复的原子,稀疏表示误差小,但是,该算法并没有充分利用音频帧之间的相关性信息,即帧之间是存在很大程度上冗余的,本文通过实验的方法,证明相关性的存在,为了利用相关性信息,本文对传统的OMP算法进行改进,在选取原子的时候,考虑到该原子是否在前一帧用过,如果该原子被前一帧选中,则在下一帧中适当增加一个权重,权重的大小根据帧之间相关性动态调整,从而提高原子选取的精确性,降低计算误差的影响。本文实验部分是在Audio Inpainting Toolbox提供的音频数据集上,使用改进型基于OMP的音频修复算法对片段缺失、脉冲干扰、削顶失真等三类不同的受损情况,与传统的固定Gabor字典相比,改进算法在信噪比SNR有4-6dB提升,在主观评价指标PESQ上有0.2-0.3提升。
引用
收藏
页数:77
共 19 条
[1]
Self-content-based audio inpainting.[J].Yuval Bahat;Yoav Y. Schechner;Michael Elad.Signal Processing.2015,
[2]
Multichannel High-Resolution NMF for Modeling Convolutive Mixtures of Non-Stationary Signals in the Time-Frequency Domain [J].
Badeau, Roland ;
Plumbley, Mark D. .
IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2014, 22 (11) :1670-1680
[3]
Compression of facial images using the K-SVD algorithm [J].
Bryt, Ori ;
Elad, Michael .
JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION, 2008, 19 (04) :270-282
[4]
Simultaneous cartoon and texture image inpainting using morphological component analysis (MCA) [J].
Elad, M ;
Starck, JL ;
Querre, P ;
Donoho, DL .
APPLIED AND COMPUTATIONAL HARMONIC ANALYSIS, 2005, 19 (03) :340-358
[5]
Sparse audio representations using the MCLT.[J].M.E. Davies;L. Daudet.Signal Processing.2005, 3
[6]
Grassmannian frames with applications to coding and communication [J].
Strohmer, T ;
Heath, RW .
APPLIED AND COMPUTATIONAL HARMONIC ANALYSIS, 2003, 14 (03) :257-275
[7]
Atomic decomposition by basis pursuit [J].
Chen, SSB ;
Donoho, DL ;
Saunders, MA .
SIAM REVIEW, 2001, 43 (01) :129-159
[8]
Multi-frame compression: theory and design [J].
Engan, K ;
Aase, SO ;
Husoy, JH .
SIGNAL PROCESSING, 2000, 80 (10) :2121-2140
[9]
Natural image statistics and efficient coding*.[J].B A Olshausen;D J Field.Network: Computation in Neural Systems.1999, 2
[10]
Adaptive greedy approximations.[J].G. Davis;S. Mallat;M. Avellaneda.Constructive Approximation.1997, 1