共 2 条
基于LDA模型的文本分类研究
被引:56
作者:
姚全珠
宋志理
彭程
机构:
[1] 不详
[2] 西安理工大学计算机科学与工程学院
[3] 不详
来源:
关键词:
文本分类;
潜在狄利克雷分配(LDA)模型;
Gibbs抽样;
贝叶斯统计理论;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。
引用
收藏
页码:150 / 153
页数:4
相关论文