一种基于LDA主题模型的政策文本聚类方法研究

被引:39
作者
张涛 [1 ]
马海群 [2 ]
机构
[1] 不详
[2] 黑龙江大学信息与网络中心
[3] 不详
[4] 黑龙江大学信息资源管理研究中心
[5] 不详
关键词
政策文本; LDA; 主题模型; 文本聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本聚类结果 G值最大,与初始人工分类数量吻合,Purity值和F值较高,因此验证该方法是合理有效的。【局限】实验中每步操作结果的精度都会对政策文本聚类的准确性产生影响。【结论】通过运用该方法的整体性设计,可对未来新政策的制定及对已有政策的反向评价检验和双向互动生成机制的形成提供借鉴。
引用
收藏
页码:59 / 65
页数:7
相关论文
共 20 条
  • [11] 信息检索[M]. 武汉大学出版社 , 黄如花, 2010
  • [12] Summarization of changes in dynamic text collections using Latent Dirichlet Allocation model
    Kar, Manika
    Nunes, Sergio
    Ribeiro, Cristina
    [J]. INFORMATION PROCESSING & MANAGEMENT, 2015, 51 (06) : 809 - 833
  • [13] Unsupervised Learning by Probabilistic Latent Semantic Analysis
    Thomas Hofmann
    [J]. Machine Learning, 2001, 42 : 177 - 196
  • [14] INDEXING BY LATENT SEMANTIC ANALYSIS
    DEERWESTER, S
    DUMAIS, ST
    FURNAS, GW
    LANDAUER, TK
    HARSHMAN, R
    [J]. JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE, 1990, 41 (06): : 391 - 407
  • [15] [J] . .
  • [16] NLPIR .2 http://ictclas.nlpir.org . 2017
  • [17] 基于LDA模型的文本分类研究
    姚全珠
    宋志理
    彭程
    [J]. 计算机工程与应用 , 2011, (13) : 150 - 153
  • [18] 一种基于密度的自适应最优LDA模型选择方法
    曹娟
    张勇东
    李锦涛
    唐胜
    [J]. 计算机学报, 2008, (10) : 1780 - 1787
  • [19] 聚类质量的评价方法
    张惟皎
    刘春煌
    李芳玉
    [J]. 计算机工程, 2005, (20) : 10 - 12
  • [20] 查全率与查准率之间关系的理论研究
    邓汉成
    王敏芳
    王瑛
    [J]. 情报学报, 2000, (04) : 359 - 362