基于LDA与新兴主题特征分析的新兴主题探测研究

被引:60
作者
范云满 [1 ,2 ]
马建霞 [1 ]
机构
[1] 中国科学院兰州文献情报中心
[2] 中国医学科学院医学信息研究所
关键词
隐狄利克雷分布; 主题模型; 新兴主题; 主题特征; 新颖度指标; 发文量指标; 被引量指标; 生命周期;
D O I
暂无
中图分类号
G353.1 [情报资料的分析和研究];
学科分类号
1205 ;
摘要
本文尝试基于LDA主题模型探测文档集中的新兴主题。本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析。并提出了针对上述新兴主题探测指标,基于LDA主题模型抽取文档的语义主题词,利用文档-主题矩阵建立主题和文档的映射,得到主题的新颖度指标和发文量指标、被引量指标,并形成新兴主题探测表格和探测曲线VDP,从而探测出新兴主题,并对新兴主题VDP与基线VDP距离的发展趋势进行预测,根据拟合的曲线对其进行分析,得到最值得关注的新兴主题。
引用
收藏
页码:698 / 711
页数:14
相关论文
共 8 条
[1]   利用LDA的领域新兴主题探测技术综述 [J].
范云满 ;
马建霞 .
现代图书情报技术, 2012, (12) :58-65
[2]   基于话题模型的科技文献话题发现和趋势分析 [J].
贺亮 ;
李芳 .
中文信息学报, 2012, 26 (02) :109-115
[3]  
基于汉语科技词系统的新兴科研趋势监测研究.[J].刘红霞;张运良;乔晓东;.数字图书馆论坛.2010, 05
[4]  
面向计算机科学的数理逻辑.[M].陆钟万著;.科学出版社.2002,
[5]  
数据分析与Eviews应用.[M].易丹辉主编;.中国统计出版社.2002,
[6]  
...http://nlp.stanford.edu/software/tmt/tmt-0.2.,
[7]  
Indices of novelty for emerging topic detection.[J].Yi-Ning Tu;Jia-Lang Seng.Information Processing and Management.2011, 2
[8]   An introduction to variational methods for graphical models [J].
Jordan, MI ;
Ghahramani, Z ;
Jaakkola, TS ;
Saul, LK .
MACHINE LEARNING, 1999, 37 (02) :183-233