基于BERT-LDA的新闻短文本分类方法

被引:14
作者
付静
龚永罡
廉小亲
顾龙浩
机构
[1] 北京工商大学人工智能学院
关键词
BERT; LDA; Word2vec; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对短文本字数受限导致的特征稀疏和语义模糊的问题,提出一种基于BERT-LDA的新闻短文本分类方法。首先将词向量和位置向量作为BERT的输入,通过多头自注意力机制获取长距离依赖关系,提取全局语义特征;然后利用Word2vec模型融合LDA主题模型扩展短文本的特征表示方法,解决短文本数据稀疏和主题信息匮乏的问题。实验结果表明,BERT-LDA模型相较于传统和单一的分类模型,具有更好的分类效果,其F值高达92.86%,证明了该方法的可行性和有效性。
引用
收藏
页码:127 / 129
页数:3
相关论文
共 5 条
  • [1] 基于机器学习的文本分类方法综述
    陈祎荻
    秦玉平
    [J]. 渤海大学学报(自然科学版), 2010, 31 (02) : 201 - 205
  • [2] Logistic回归模型[M]. 高等教育出版社 , 王济川, 2001
  • [3] Long short-term memory
    Hochreiter, S
    Schmidhuber, J
    [J]. NEURAL COMPUTATION, 1997, 9 (08) : 1735 - 1780
  • [4] Classifying Short Texts with Word Embedding and LDA Model . Zhang Q,Wang H,Wang L,et al. Data Analysis and Knowledge Discovery . 2017
  • [5] Metric Learning for Text Documents . Guy Lebanon. IEEE Transactions on Pattern Analysis and Machine Intelligence . 2006