基于关键词关联度指标(KRI)进行LDA噪声主题过滤的方法研究

被引:7
作者
蒋甜
刘小平
刘会洲
机构
[1] 中国科学院文献情报中心
关键词
主题过滤; LDA模型; 关键词关联度指标KRI;
D O I
10.13266/j.issn.0252-3116.2020.03.010
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
[目的/意义]针对LDA模型主题识别结果通常包含噪声主题的问题,建立科学有效的主题过滤方法,排除噪声主题,确保主题识别及后续演化分析的准确性。[方法/过程]基于关键词之间的共现关系,构建关键词关联度指标(KRI),借助定量手段进行主题筛选和过滤。以单细胞研究领域为例,计算各主题-关键词分布的KRI值,与人工判读结果进行对比分析。[结果/结论]实验结果表明,该方法能够有效排除LDA模型识别结果中的噪声主题,提高主题识别的准确性,也在一定程度上降低了主题识别过程对人工判读的依赖性。
引用
收藏
页码:92 / 99
页数:8
相关论文
共 12 条
  • [1] 基于主题过滤与主题关联的学科主题演化分析
    曲佳彬
    欧石燕
    [J]. 数据分析与知识发现, 2018, 2 (01) : 64 - 75
  • [2] 科技情报分析中LDA主题模型最优主题数确定方法研究
    关鹏
    王曰芬
    [J]. 现代图书情报技术, 2016, (09) : 42 - 50
  • [3] 基于LDA模型和话题过滤的研究主题演化分析
    李保利
    杨星
    [J]. 小型微型计算机系统, 2012, 33 (12) : 2738 - 2743
  • [4] 主题优化过滤方法研究与应用[D]. 解琰.大连海事大学. 2015
  • [5] Deconstructing Olfactory Stem Cell Trajectories at Single-Cell Resolution
    Fletcher, Russell B.
    Das, Diya
    Gadye, Levi
    Street, Kelly N.
    Baudhuin, Ariane
    Wagner, Allon
    Cole, Michael B.
    Flores, Quetzal
    Choi, Yoon Gi
    Yosef, Nir
    Purdom, Elizabeth
    Dudoit, Sandrine
    Risso, Davide
    Ngai, John
    [J]. CELL STEM CELL, 2017, 20 (06) : 817 - +
  • [6] Defining heterogeneity within bacterial populations via single cell approaches
    Davis, Kimberly M.
    Isberg, Ralph R.
    [J]. BIOESSAYS, 2016, 38 (08) : 782 - 790
  • [7] A personalized hashtag recommendation approach using LDA-based topic model in microblog environment[J] . Feng Zhao,Yajun Zhu,Hai Jin,Laurence T. Yang. Future Generation Computer Systems . 2015
  • [8] Research on the semantic-based co-word analysis
    Wang, Zhong-Yi
    Li, Gang
    Li, Chun-Ya
    Li, Ang
    [J]. SCIENTOMETRICS, 2012, 90 (03) : 855 - 875
  • [9] A density-based method for adaptive LDA model selection[J] . Juan Cao,Tian Xia,Jintao Li,Yongdong Zhang,Sheng Tang. Neurocomputing . 2008 (7)
  • [10] Spike and slab gene selection for multigroup microarray data
    Ishwaran, H
    Rao, JS
    [J]. JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, 2005, 100 (471) : 764 - 780