基于混合模型的聚类算法研究

被引:0
作者
翟少丹
机构
[1] 西北大学
关键词
混合模型; EM算法; 最大后验估计(MAP); 模型选择; 聚类;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
聚类是一种在缺少先验知识的条件下将一个数据集分成多个更小的更相似子群或簇的方法。近几年来,混合模型作为聚类分析的基础,在聚类过程中发挥着重要的作用。其中有限混合模型已逐渐成为多元统计分析的得力工具。基于高斯混合模型的密度估计和聚类在众多方面都有着出色的效果。在这种方法中,数据被看作来自一个混合分布,每个分布代表一个不同的类。本文提出一种新的基于混合高斯分布的聚类方法,在聚类过程中用最大后验估计(MAP)来代替极大似然估计(MLE),从而避免了协方差矩阵在迭代中陷入奇异。同时,我们将一种改进的贝叶斯信息准则(BIC)与模型参数估计同时处理,这样就扩大了模型选择的搜索范围。 本文有以下几个部分。第一章简述聚类分析的研究现状。第二章介绍了有限混合模型的基本概念和EM算法。第三章提出了基于高斯混合模型的聚类方法,其中包括模型分支的个数及结构的估计。第四章提出一种基于最大后验估计的无监督的聚类算法,这种算法不但能有效防止协方差矩阵陷入奇异,同时在模型选择上也有很好的表现。
引用
收藏
页数:60
共 16 条
[1]
Bayesian regularization for normal mixture estimation and model-based clustering [J].
Fraley, Chris ;
Raftery, Adrian E. .
JOURNAL OF CLASSIFICATION, 2007, 24 (02) :155-181
[3]
Choosing starting values for the EM algorithm for getting the highest likelihood in multivariate Gaussian mixture models.[J].Christophe Biernacki;Gilles Celeux;Gérard Govaert.Computational Statistics and Data Analysis.2002, 3
[4]
An experimental comparison of model-based clustering methods [J].
Meila, M ;
Heckerman, D .
MACHINE LEARNING, 2001, 42 (1-2) :9-29
[5]
Cure: An efficient clustering algorithm for large databases [J].
Guha, S ;
Rastogi, R ;
Shim, K .
INFORMATION SYSTEMS, 2001, 26 (01) :35-58
[6]
Asymptotic convergence rate of the EM algorithm for Gaussian mixtures [J].
Ma, JW ;
Xu, L ;
Jordan, MI .
NEURAL COMPUTATION, 2000, 12 (12) :2881-2907
[7]
SMEM algorithm for mixture models [J].
Ueda, N ;
Nakano, R ;
Ghahramani, Z ;
Hinton, GE .
NEURAL COMPUTATION, 2000, 12 (09) :2109-2128
[8]
A clustering algorithm based on graph connectivity.[J].Erez Hartuv;Ron Shamir.Information Processing Letters.2000, 4
[9]
A fast parallel clustering algorithm for large spatial databases [J].
Xu, XW ;
Jäger, J ;
Kriegel, HP .
DATA MINING AND KNOWLEDGE DISCOVERY, 1999, 3 (03) :263-290
[10]
Deterministic annealing EM algorithm [J].
Ueda, N ;
Nakano, R .
NEURAL NETWORKS, 1998, 11 (02) :271-282