自然语言处理中主题模型的发展

被引:236
作者
徐戈
王厚峰
机构
[1] 北京大学计算语言学研究所
[2] 北京大学计算语言学教育部重点实验室
关键词
自然语言处理; 主题模型; 隐性语义索引; LDA; 期望最大化算法; Gibbs采样;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系.
引用
收藏
页码:1423 / 1436
页数:14
相关论文
共 8 条
  • [1] 一种基于密度的自适应最优LDA模型选择方法
    曹娟
    张勇东
    李锦涛
    唐胜
    [J]. 计算机学报, 2008, (10) : 1780 - 1787
  • [2] 基于LDA模型的文本分割
    石晶
    胡明
    石鑫
    戴国忠
    [J]. 计算机学报, 2008, (10) : 1865 - 1873
  • [3] 基于Labeled-LDA模型的文本分类新算法
    李文波
    孙乐
    张大鲲
    [J]. 计算机学报, 2008, (04) : 620 - 627
  • [4] A CORRELATED TOPIC MODEL OF SCIENCE
    Blei, David M.
    Lafferty, John D.
    [J]. ANNALS OF APPLIED STATISTICS, 2007, 1 (01) : 17 - 35
  • [5] Unsupervised Learning by Probabilistic Latent Semantic Analysis
    Thomas Hofmann
    [J]. Machine Learning, 2001, 42 : 177 - 196
  • [6] Maximum Likelihood from Incomplete Data via the EM Algorithm[J] . A. P. Dempster,N. M. Laird,D. B. Rubin.Journal of the Royal Statistical Society. Series . 1977 (1)
  • [7] Question classification using support vector machines .2 Dell Zhang,Wee Sun Lee. Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR) . 2003
  • [8] Topics over time:A Non-Markov Conti-nuous-Time model of topical trends .2 Wang X,McCallum A. Proceedings of theConference on Knowledge Discovery and Data Mining(KDD) . 2006