基于LDA主题模型的短文本分类

被引:18
作者
杨萌萌
黄浩
程露红
马平
包武杰
机构
[1] 新疆大学信息科学与工程学院
关键词
潜在狄利克雷分布(LDA); 向量空间模型(VSM); 短文本分类; K近邻(K-nearest neighbor); 吉布斯采样; 相似度计算;
D O I
10.16208/j.issn1000-7024.2016.12.044
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。
引用
收藏
页码:3371 / 3377
页数:7
相关论文
共 9 条
[1]  
基于语义理解与PLSA的文本情感分类研究.[D].胡文静.天津师范大学.2012, 09
[2]  
Short Text Classification: A Survey.[J].Ge Song;Yunming Ye;Xiaolin Du;Xiaohui Huang;Shifu Bie.Journal of Multimedia.2014, 5
[3]   Short text similarity based on probabilistic topics [J].
Quan, Xiaojun ;
Liu, Gang ;
Lu, Zhi ;
Ni, Xingliang ;
Wenyin, Liu .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (03) :473-491
[4]   基于LDA-wSVM模型的文本分类研究 [J].
李锋刚 ;
梁钰 ;
GAO Xiaozhi ;
ZENGER Kai .
计算机应用研究, 2015, 32 (01) :21-25
[5]   LDA模型下书目信息分类系统的研究与实现 [J].
李湘东 ;
廖香鹏 ;
黄莉 .
现代图书情报技术, 2014, (05) :18-25
[6]   基于LDA主题模型的文本相似度计算 [J].
王振振 ;
何明 ;
杜永萍 .
计算机科学, 2013, 40 (12) :229-232
[7]   基于LDA主题模型的短文本分类方法 [J].
张志飞 ;
苗夺谦 ;
高灿 .
计算机应用, 2013, 33 (06) :1587-1590
[8]   基于LDA的中文文本相似度计算 [J].
孙昌年 ;
郑诚 ;
夏青松 .
计算机技术与发展, 2013, 23 (01) :217-220
[9]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用 , 2011, (13) :150-153