共词网络LDA模型的中文短文本主题分析

被引:100
作者
蔡永明 [1 ]
长青 [2 ]
机构
[1] 济南大学商学院
[2] 内蒙古工业大学经济管理学院
关键词
共词网络LDA主题模型(CA-LDA); 隐含空间降维; 自同构等价规则; 隐含位置聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率。实验证明该模型在短文本分析中有较好的效果。
引用
收藏
页码:305 / 317
页数:13
相关论文
共 11 条
[1]
共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例 [J].
马红 ;
蔡永明 .
现代图书情报技术, 2016, (12) :17-26
[2]
基于图和LDA主题模型的关键词抽取算法 [J].
刘啸剑 ;
谢飞 ;
吴信东 .
情报学报, 2016, (06) :664-672
[3]
基于共词分析和社会网络分析的我国计算机集成制造系统研究热点 [J].
张晓冬 ;
周宏丽 ;
胡杨 ;
赵东方 .
科技管理研究, 2016, 36 (11) :145-149
[4]
基于免疫的中文网络短文本聚类算法.[J].贺涛;曹先彬;谭辉;.自动化学报.2009, 07
[5]
基于图结构的中文文本表示方法研究.[J].吴江宁;刘巧凤;.情报学报.2010, 04
[6]
基于Wordnet关系数据库的专利本体半自动构建研究.[J].吴鹏;马文虎;严明;.情报学报.2011, 06
[7]
Short text similarity based on probabilistic topics [J].
Quan, Xiaojun ;
Liu, Gang ;
Lu, Zhi ;
Ni, Xingliang ;
Wenyin, Liu .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (03) :473-491
[8]
Model‐based clustering for social networks.[J].Mark S.Handcock;Adrian E.Raftery;Jeremy M.Tantrum.Journal of the Royal Statistical Society: Series A (Statistics in Society).2007, 2
[9]
Hierarchical Dirichlet processes [J].
Teh, Yee Whye ;
Jordan, Michael I. ;
Beal, Matthew J. ;
Blei, David M. .
JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, 2006, 101 (476) :1566-1581
[10]
Latent space approaches to social network analysis [J].
Hoff, PD ;
Raftery, AE ;
Handcock, MS .
JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, 2002, 97 (460) :1090-1098