一种基于LDA主题模型的政策文本聚类方法研究

被引：39

作者：

张涛 ^{[1
]}

马海群 ^{[2
]}

机构：

[1] 不详

[2] 黑龙江大学信息与网络中心

[3] 不详

[4] 黑龙江大学信息资源管理研究中心

[5] 不详

来源：

数据分析与知识发现 | 2018年 / 09期

关键词：

政策文本; LDA; 主题模型; 文本聚类;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

【目的】利用LDA主题模型有效提升政策文本聚类精准度。【方法】通过对政策文本模拟数据的预处理、导入政策词表、LDA模型生成基础数据、利用加权算法进行文本计算等步骤对政策文本聚类。【结果】实验数据表明:k=4时,加权后的政策文本聚类结果 G值最大,与初始人工分类数量吻合,Purity值和F值较高,因此验证该方法是合理有效的。【局限】实验中每步操作结果的精度都会对政策文本聚类的准确性产生影响。【结论】通过运用该方法的整体性设计,可对未来新政策的制定及对已有政策的反向评价检验和双向互动生成机制的形成提供借鉴。

引用

页码：59 / 65

页数：7

共 20 条

[1] LDA模型的优化及其主题数量选择研究——以科技文献为例
王婷婷
韩满
王宇
[J]. 数据分析与知识发现 , 2018, (01) : 29 - 40
[2] 基于主题模型的检索结果聚类应用研究
阮光册
夏磊
[J]. 情报杂志, 2017, (03) : 179 - 184
[3] 基于LDA模型的移动投诉文本热点话题识别
方小飞
黄孝喜
王荣波
谌志群
王小华
[J]. 数据分析与知识发现 , 2017, (02) : 19 - 27
[4] 政策文本计算:一种新的政策文本解读方式[J]. 裴雷,孙建军,周兆韬.图书与情报. 2016(06)
[5] 科技情报分析中LDA主题模型最优主题数确定方法研究
关鹏
王曰芬
[J]. 现代图书情报技术, 2016, (09) : 42 - 50
[6] 基于LDA的中文词语相似度计算
吕亚伟
李芳
戴龙龙
[J]. 北京化工大学学报(自然科学版), 2016, 43 (05) : 79 - 83
[7] 一种基于加权LDA模型和多粒度的文本特征选择方法
李湘东
巴志超
黄莉
[J]. 现代图书情报技术 , 2015, (05) : 42 - 49
[8] 用文献计量研究重塑政策文本数据分析——政策文献计量的起源、迁移与方法创新
李江
刘源浩
黄萃
苏竣
[J]. 公共管理学报, 2015, 12 (02) : 138 - 144+159
[9] 基于LDA模型的文本聚类研究
王鹏
高铖
陈晓美
[J]. 情报科学, 2015, 33 (01) : 63 - 68
[10] 一种政策语篇拟合度递归下降评估算法
刘刚
刘影
杜玉丹
孙素艳
[J]. 计算机应用研究, 2015, 32 (02) : 343 - 346+390

← 1 2 →