基于高斯混合模型的变分自动编码器

被引:0
作者
李鹏
机构
[1] 哈尔滨工业大学
关键词
无监督学习; 神经网络; 变分推理; 变分自动编码器; 高斯混合模型; NDGMVAE;
D O I
暂无
年度学位
2017
学位类型
硕士
导师
摘要
无监督学习作为一种能从无标签数据中学习真实世界的方法,它能把人类从数据的标签化中解放出来。费曼说过:做不出来就没有真正明白,评价无监督学习好坏的方式有很多,其中生成任务就是最直接的一个。只有当我们能生成/创造我们的真实世界,才能说明我们是完完全全理解了它。因此,生成模型成为了近年来无监督学习算法中最流行的算法之一。本文将介绍一种复杂分布无监督学习中最流行的生成模型之一,即变分自动编码器,一种能够自动生成数据的模型,它是将高维复杂图像分布降低成低维简单分布,从而再从低维简单分布中自动生成原始图像。目前的变分自动编码器中隐变量z的后验分布大多满足单个简单分布,比如高斯分布,这就造成低维表示太过简单。然而真实世界中有许多非高斯形态的分布,特别地,对于一些高度扭曲的多峰分布,一个高斯近似往往是不足够的。而数据集的隐空间也可能是任意复杂的分布。基于此,我们主要做了以下几点贡献。首先,为了提高后验分布的灵活性,我们把近似后验分布改为高斯混合模型,高斯混合模型的加入大大提高了变分自动编码器在数据集上的边缘似然。其次,为了进一步提高后验分布的灵活性,我们在变分自编码器中引入了Normalizing Flows,并将Normalizing Flows与高斯混合模型结合。Normalizing Flows可以用来指定任意复杂的、灵活的、可缩放的近似后验分布,即一个简单的初始化密度函数通过运用一系列的可逆变换被转移成一个渴望获得的复杂分布。最后,我们重新推导了高斯混合模型下变分自动编码器的变分下界,并获得了其对应的优化算法。由于Normalizing Flows的加入,高斯混合模型中的每一个单高斯都可以近似全协方差矩阵,即高斯混合模型的所有协方差矩阵都是非对角的,因此,基于高斯混合模型的变分自动编码器又被称为非对角高斯混合变分自动编码器(non-diagonal Gaussian mixture variational auto-encoders,NDGMVAE)。NDGMVAE使得隐变量z能够更真实地匹配隐变量空间。进一步,为了提高变分自动编码器的图像生成清晰度,我们改进了变分自动编码器中编码器和解码器的结构,使用了最新的卷积神经网络(CNN)和具有门控机制(gating mechanism)的神经网络,我们还对不同结构的变分自动编码器的变分下界进行了比较。为了证明新引入的后验分布更加的灵活,能够更真实地匹配隐变量空间,我们基于MNIST数据集、OMNIGLOT数据集和Histopathology数据集进行了实验,着重比较了各个数据集下的log似然的变分下界,并且在MNIST、OMNIGLOT和Freyfaces数据集上进行了可视化,比较了MNIST对应的隐变量分布。不仅如此,我们还基于不同高斯混合个数、不同高斯混合系数和Normalizing Flows的长度做了相应的实验。总之,新改进地基于高斯混合模型的变分自动编码器在性能和变分推理的各种应用上都有一个明显的提高,并且在理论上也具有优势。
引用
收藏
页数:75
共 15 条
[1]
深度无监督学习算法研究 [D]. 
岳永鹏 .
西南石油大学,
2015
[2]
基于表示学习的中文分词算法探索 [J].
来斯惟 ;
徐立恒 ;
陈玉博 ;
刘康 ;
赵军 .
中文信息学报, 2013, 27 (05) :8-14
[3]
基于自动编码器的中文词汇特征无监督学习 [J].
张开旭 ;
周昌乐 .
中文信息学报, 2013, 27 (05) :1-7+92
[4]
深度学习结构和算法比较分析 [J].
李海峰 ;
李纯果 .
河北大学学报(自然科学版), 2012, 32 (05) :538-544
[5]
无监督词义消歧研究 [J].
王瑞琴 ;
孔繁胜 .
软件学报, 2009, 20 (08) :2138-2152
[6]
基于混合概率模型的无监督离散化算法 [J].
李刚 ;
童頫 .
计算机学报, 2002, (02) :158-164
[7]
基于支持向量机与无监督聚类相结合的中文网页分类器 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机学报, 2001, (01) :62-68
[8]
A family of nonparametric density estimation algorithms [J].
Tabak, E. G. ;
Turner, Cristina V. .
COMMUNICATIONS ON PURE AND APPLIED MATHEMATICS, 2013, 66 (02) :145-164
[9]
A tutorial on spectral clustering [J].
von Luxburg, Ulrike .
STATISTICS AND COMPUTING, 2007, 17 (04) :395-416
[10]
On the benefits of using functional transitions and Kronecker algebra [J].
Benoit, A ;
Fernandes, P ;
Plateau, B ;
Stewart, WJ .
PERFORMANCE EVALUATION, 2004, 58 (04) :367-390