科技情报分析中LDA主题模型最优主题数确定方法研究

被引:124
作者
关鹏 [1 ,2 ]
王曰芬 [1 ]
机构
[1] 南京理工大学经济管理学院
[2] 巢湖学院应用数学学院
关键词
LDA主题模型; 相似度; 困惑度; 科技情报分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的】有效确定科技情报分析中LDA主题模型的最优主题数目。【方法】利用主题相似度度量潜在主题之间的差异,同时结合困惑度提出一种确定LDA最优主题数目的方法,该方法既考虑主题抽取效果同时也考虑模型对新文档的泛化能力。【结果】获取国内新能源领域的科技文献作为数据集,实证结果表明本文提出的最优LDA主题数确定方法与单纯使用困惑度相比,具有更高的主题抽取查准率(91.67%)、F值(86.27%)及科技文献推荐精度(71.25%)。【局限】未针对其他类型的数据集进行新方法的验证,如微博短文本、XML文档等。【结论】本文方法能够有效地从科技文献数据集中抽取辨识度较高的主题,并能够提高科技文献推荐效果。
引用
收藏
页码:42 / 50
页数:9
相关论文
共 12 条
  • [1] 基于多重关系的专利网络演化特征与动态分析——以锂离子电池领域为例[J]. 刘彤,杨冠灿,蒋继娅,郭鲁钢.情报学报. 2014 (12)
  • [2] 融合科技文献内外部特征的主题模型发展综述[J]. 张晗,徐硕,乔晓东.情报学报. 2014 (10)
  • [3] 基于LDA与新兴主题特征分析的新兴主题探测研究
    范云满
    马建霞
    [J]. 情报学报, 2014, 33 (07) : 698 - 711
  • [4] 基于概率主题模型的文档聚类
    王李冬
    魏宝刚
    袁杰
    [J]. 电子学报, 2012, 40 (11) : 2346 - 2350
  • [5] 科技文献话题演化研究
    贺亮
    李芳
    [J]. 现代图书情报技术, 2012, (04) : 61 - 67
  • [6] 基于话题模型的科技文献话题发现和趋势分析
    贺亮
    李芳
    [J]. 中文信息学报, 2012, (02) : 109 - 115
  • [7] 一种基于密度的自适应最优LDA模型选择方法
    曹娟
    张勇东
    李锦涛
    唐胜
    [J]. 计算机学报, 2008, (10) : 1780 - 1787
  • [8] 基于概率主题模型的文献知识挖掘[J]. 王萍.情报学报. 2011 (06)
  • [9] iVisClustering: An Interactive Visual Document Clustering via Topic Modeling[J] . Hanseung Lee,Jaeyeon Kihm,Jaegul Choo,John Stasko,Haesun Park.Computer Graphics Forum . 2012 (3pt3)
  • [10] Hierarchical Dirichlet processes
    Teh, Yee Whye
    Jordan, Michael I.
    Beal, Matthew J.
    Blei, David M.
    [J]. JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, 2006, 101 (476) : 1566 - 1581