EM (expectation-maximization)算法又称期望最大化算法,是Dempster, Laind, Rubin于1977年提出的求参数极大似然估计的一种迭代优化策略,它可以从非完整数据集中对参数进行极大似然估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据,截尾数据,带有噪声等所谓的不完全数据,EM算法是在缺失数据等不完全数据下进行参数的极大似然估计或者极大后验估计一种行之有效的方法。
文章的首先主要介绍来了EM算法的研究背景意义,国内外研究现状,以及EM算法优化迭代的理论和一般步骤,接着给出了一个启发性的例子从而让我们更好的理解EM算法,接着对EM算法的收敛性进行了证明,说明了EM算法每次迭代总是能提高似然函数值直到收敛到一个稳定点,之后研究了EM算法的收敛速度。
从上一部分可以看出,EM算法的优势是显然的,基于其简单、收敛、稳定上升,但是它也有诸多缺点,本文之后阐述了针对EM算法的缺点对其进行的各方面改进,包括改进E步的Monte Carlo EM算法原理、迭代的一般步骤;改进M步的ECM、ECME算法的理论、算法及其收敛速度分析,以及针对EM算法收敛速度慢的加速方法和PX-EM算法;
文章的最后一部分给出了EM算法的三个非常重要的应用,包括EM算法在二元正态分布上的参数估计的应用、混合高斯分布参数估计方面的应用以及EM算法在隐马尔科夫模型(HMM)参数估计方面的应用,即著名的Baum-Welch算法,一种EM算法的特例。最后用编程实现算法,得到的参数估计结果还是比较理想的。
综合本文对EM算法的研究,可以看出EM算法在处理数据缺失问题中有明显优势,算法和原理简单,收敛稳定,应用广泛。当然如本文第四章所说,EM算法也存在诸多缺点(比如收敛速度慢:E步、M步计算困难)等,但是相信随着更多的学者对EM算法进行深入的研究,EM算法会得到更大的推广和改进,这些问题也都会逐步得到解决。