基于层次概率主题模型的科技文献主题发现及演化

被引:30
作者
王平
机构
[1] 武汉大学信息管理学院
关键词
主题发现; 主题演化; 层次概率主题模型;
D O I
10.13266/j.issn.0252-3116.2014.22.012
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用。针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型h LDA,采用Gibbs抽样来进行模型参数估计,并运用互信息的方法对主题词进行筛选,以提取高质量的主题词。最后,利用先/后离散分析方法研究主题随时间的演化问题。实验结果验证了主题发现及演化方法的可行性及有效性。
引用
收藏
页码:70 / 77
页数:8
相关论文
共 7 条
[1]   基于引文—主题概率模型的科技文献主题识别方法研究 [J].
叶春蕾 ;
冷伏海 .
情报理论与实践, 2013, 36 (09) :100-103
[2]   科技文献话题演化研究 [J].
贺亮 ;
李芳 .
现代图书情报技术, 2012, (04) :61-67
[3]   基于LDA话题演化研究方法综述 [J].
单斌 ;
李芳 .
中文信息学报, 2010, (06) :43-49+68
[4]  
基于概率图模型的科研文献主题演化研究[J]. 王金龙,徐从富,耿雪玉.情报学报. 2009 (03)
[5]  
基于概率主题模型的文献知识挖掘[J]. 王萍.情报学报. 2011 (06)
[6]  
An Introduction to MCMC for Machine Learning[J] . Christophe Andrieu,Nando de Freitas,Arnaud Doucet,Michael I. Jordan.Machine Learning . 2003 (1)
[7]  
An information-theoretic perspective of tf–idf measures[J] . Akiko Aizawa.Information Processing and Management . 2002 (1)