一种改进的LDA主题模型

被引:47
作者
张小平 [1 ]
周雪忠 [1 ]
黄厚宽 [1 ]
冯奇 [1 ]
陈世波 [2 ]
焦宏官 [3 ]
机构
[1] 北京交通大学计算机与信息技术学院
[2] 中国中医科学院广安门医院
[3] 中国中医科学院中医药信息研究所
关键词
LDA; Dirichlet分布; 加权主题模型;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高.
引用
收藏
页码:111 / 114
页数:4
相关论文
共 1 条
[1]   Unsupervised Learning by Probabilistic Latent Semantic Analysis [J].
Thomas Hofmann .
Machine Learning, 2001, 42 :177-196