基于LDA主题模型的文献关联分析及可视化研究

被引:12
作者
王丽
邹丽雪
刘细文
机构
[1] 中国科学院文献情报中心
[2] 中国科学院大学
关键词
LDA主题模型; 数据分析; 机器学习; Python; 数据可视化;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
【目的】基于机器学习进行有效的科研主题发现与分析建模研究。【方法】以LDA主题模型为基础进行科研主题发现,通过Python语言实现分析建模,关联分析科研主题的年代、机构、基础研究与应用研发等信息,对比披露了各年代、机构的研发重点及基础研究和应用研究的差异,并对结果进行可视化。【结果】基于101 813条石墨烯领域的论文和专利数据进行实证分析,结果表明通过建模进行12个主题的发现、关联分析及其可视化全流程可在很短时间(约2分钟)内完成,通过机器学习的手段突破了传统分析工具以及数据分析体量的局限性,提升了针对大量文本数据信息挖掘及分析的效率。【局限】尚未探讨主题间关联关系权重及主题演进等涉及复杂网络分析的内容。【结论】机器学习对情报分析有着无限可能,需要基于实际需求开发更多有效的分析模型,满足大文本分析和可视化。
引用
收藏
页码:98 / 106
页数:9
相关论文
共 4 条
[1]   专利技术主题分析:基于SAO结构的LDA主题模型方法 [J].
杨超 ;
朱东华 ;
汪雪锋 ;
朱福进 ;
衡晓帆 .
图书情报工作, 2017, 61 (03) :86-96
[2]   新兴技术发现模型研究 [J].
任智军 ;
乔晓东 ;
张江涛 .
现代图书情报技术, 2016, (Z1) :60-69
[3]   基于LDA主题模型的专利内容分析方法 [J].
王博 ;
刘盛博 ;
丁堃 ;
刘则渊 .
科研管理, 2015, 36 (03) :111-117
[4]  
Predicting the pattern of technology convergence using big-data technology on large-scale triadic patents[J] . Won Sang Lee,Eun Jin Han,So Young Sohn. Technological Forecasting & Social Change . 2015