基于概率主题模型的文档聚类

被引:22
作者
王李冬 [1 ,2 ]
魏宝刚 [1 ]
袁杰 [1 ]
机构
[1] 浙江大学计算机科学与技术学院
[2] 杭州师范大学
关键词
主题模型; LDA模型; TC-LDA模型; 文档聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.
引用
收藏
页码:2346 / 2350
页数:5
相关论文
共 2 条
  • [1] 基于语义的高维数据聚类技术
    刘铭
    王晓龙
    刘远超
    [J]. 电子学报, 2009, 37 (05) : 925 - 929
  • [2] 一种基于密度的自适应最优LDA模型选择方法
    曹娟
    张勇东
    李锦涛
    唐胜
    [J]. 计算机学报, 2008, (10) : 1780 - 1787