共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例

被引:18
作者
马红 [1 ]
蔡永明 [2 ]
机构
[1] 山东交通学院交通法学院
[2] 济南大学商学院
关键词
共词网络LDA; 主题模型(CA-LDA); 主题词共现; 网络拓扑结构参数; 随机梯度下降; 交通法学热词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; G254 [文献标引与编目];
学科分类号
050302 [传播学]; 120506 [数字人文];
摘要
【目的】通过结合传统LDA模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者优势,降低由少量文献产生的高频词汇的干扰,提高主题凝聚性。【方法】在交通法学文献摘要文本主题分析中,加入文献的关键词作为分词复合词典,提高语义识别度;提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word Analysis),在传统LDA模型的基础上加入共词网络分析,以共词网络拓扑结构参数作为权重控制词汇主题分配(采用介数中心度),优先提取同时具有高共现性(中介性)和高频率的词汇。【结果】CA-LDA模型可以得到多篇文献同时共现的高频词汇,这样产生的重点词汇表对主题分析更有意义。该算法的结果不仅仅反映词频概率,同时也能从词汇关联上发现枢纽词汇,更深入理解该领域的研究热点。【局限】CA-LDA模型主题数目K的取值采用混淆度标准交叉验证获得,如果在实际分析中K值太大,不利于文献主题的分类整理,未来研究需要对该结果进一步处理来凝聚主题。【结论】本文将该模型应用于交通法学研究领域热点主题分析,在处理大规模文献数据中取得较好效果。相关研究可以拓展应用于各种领域的大规模文献数据自动化处理中。
引用
收藏
页码:17 / 26
页数:10
相关论文
共 10 条
[1]
A faster algorithm for betweenness centrality*.[J].Ulrik Brandes.The Journal of Mathematical Sociology.2001, 2
[2]
An introduction to variational methods for graphical models [J].
Jordan, MI ;
Ghahramani, Z ;
Jaakkola, TS ;
Saul, LK .
MACHINE LEARNING, 1999, 37 (02) :183-233
[3]
Co-word analysis as a tool for describing the network of interactions between basic and technological research: The case of polymer chemsitry.[J].M. Callon;J. P. Courtial;F. Laville.Scientometrics.1991, 1
[4]
EFFICIENT ALGORITHMS FOR AGGLOMERATIVE HIERARCHICAL-CLUSTERING METHODS [J].
DAY, WHE ;
EDELSBRUNNER, H .
JOURNAL OF CLASSIFICATION, 1984, 1 (01) :7-24
[5]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[6]
基于共词分析和社会网络分析的我国计算机集成制造系统研究热点 [J].
张晓冬 ;
周宏丽 ;
胡杨 ;
赵东方 .
科技管理研究, 2016, 36 (11) :145-149
[7]
利用LDA的领域新兴主题探测技术综述 [J].
范云满 ;
马建霞 .
现代图书情报技术, 2012, (12) :58-65
[8]
基于凝聚式层次聚类算法的标签聚类研究 [J].
曹高辉 ;
焦玉英 ;
成全 .
现代图书情报技术, 2008, (04) :23-28
[9]
基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[10]
一种新颖的词聚类算法和可变长统计语言模型 [J].
陈浪舟 ;
黄泰翼 .
计算机学报, 1999, (09) :942-948