文本聚类中的贝叶斯后验模型选择方法

被引:20
作者
姜宁
史忠植
机构
[1] 中国科技大学研究生院计算机学部
[2] 中国科学院计算技术研究所
关键词
文本聚类; 贝叶斯后验模型选择; 混合模型; 期望最大化; 贝叶斯估计;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
对聚类分析中的模型选择特别是混合模型方法进行了较全面地介绍与总结 ,对其中的关键技术逐一进行了讨论 .在此基础上 ,提出了贝叶斯后验模型选择方法 ,并把它与文档产生特征序列的物理模型相结合 ,给出了一个用于聚类分析的概率模型 .对真实文本数据的测试中该模型取得了非常好的效果 .同时对不同贝叶斯估计方法取得的效果进行了对比
引用
收藏
页码:580 / 587
页数:8
相关论文
共 7 条
  • [1] Chris Fraley,Adrian E Raftery.Model -based clustering, discriminate analysis, and density estimation. . 2000
  • [2] F Murtagh,A E Raftery.Fitting straight lines to point patterns. Pattern Recognition . 1984
  • [3] R E Kass,A E Raftery.Bayesian factors and model uncertainly. . 1993
  • [4] Iwayama Makoto,Tokunaga Takenobu.Hierarchical Bayesian clustering for automatic text classification. . 1995
  • [5] J D Banfield,A E Raftery.Model -based Gaussian and nonGaussian clustering. Biometrics . 1993
  • [6] Jeff A Bilmes.A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models. . 1998
  • [7] H H Bock.Probabilistic models in cluster analysis. Computational Statistics &Data Analysis . 1996