基于Labeled-LDA模型的文本分类新算法

被引:96
作者
李文波
孙乐
张大鲲
机构
[1] 中国科学院软件研究所
基金
国家自然科学基金重点项目;
关键词
文本分类; 图模型; 隐含狄利克雷分配; 变分推断;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种能够提取文本隐含主题的非监督学习模型.通过在传统LDA模型中融入文本类别信息,文中提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以在各类别上协同计算隐含主题的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明:基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能,在复旦大学中文语料库上micro-F1提高约5.7%,在英文语料库20newsgroup的comp子集上micro-F1提高约3%.
引用
收藏
页码:620 / 627
页数:8
相关论文
共 6 条
  • [1] 基于机器学习的文本分类技术研究进展
    苏金树
    张博锋
    徐昕
    [J]. 软件学报, 2006, (09) : 1848 - 1859
  • [2] 训练集类别分布对文本分类的影响
    张启蕊
    张凌
    董守斌
    谭景华
    [J]. 清华大学学报(自然科学版), 2005, (S1) : 1802 - 1805
  • [3] 一种基于潜在语义结构的文本分类模型
    曾雪强
    王明文
    陈素芬
    [J]. 华南理工大学学报(自然科学版), 2004, (S1) : 99 - 102
  • [4] A new differential LSI space-based probabilistic document classifier
    Chen, L
    Tokuda, N
    Nagai, A
    [J]. INFORMATION PROCESSING LETTERS, 2003, 88 (05) : 203 - 212
  • [5] A comparison of word- and sense-based text categorization using several classification algorithms
    Kehagias, A
    Petridis, V
    Kaburlasos, VG
    Fragkou, P
    [J]. JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2003, 21 (03) : 227 - 247
  • [6] An Evaluation of Statistical Approaches to Text Categorization
    Yiming Yang
    [J]. Information Retrieval, 1999, 1 (1-2): : 69 - 90