不同语料下基于LDA主题模型的科学文献主题抽取效果分析

被引:54
作者
关鹏 [1 ,2 ]
王曰芬 [1 ]
傅柱 [1 ]
机构
[1] 南京理工大学经济管理学院
[2] 巢湖学院应用数学学院
关键词
主题模型; LDA; 主题抽取; 效果分析; 科学文献;
D O I
10.13266/j.issn.0252-3116.2016.02.018
中图分类号
G254 [文献标引与编目];
学科分类号
摘要
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。
引用
收藏
页码:112 / 121
页数:10
相关论文
共 18 条