词向量与LDA相融合的短文本分类方法

被引:41
作者
张群
王红军
王伦文
机构
[1] 中国人民解放军电子工程学院
关键词
短文本分类; 词向量; LDA主题模型; 最近邻分类器;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】针对短文本主题聚焦性差以及严重的特征稀疏问题,设计一种基于词向量与LDA主题模型相融合的短文本分类方法。【方法】从"词"粒度及"文本"粒度层面同时对短文本进行精细语义建模,首先基于Word2Vec训练词向量并通过相加平均法合成"词"粒度层面的短文本向量,基于吉布斯采样法训练LDA主题模型并根据主题概率最大原则对短文本进行特征扩展,然后基于词向量相似度计算扩展特征权重得到"文本"粒度层面的短文本向量,最后通过向量拼接构建词向量与LDA相融合的短文本表示模型,在此基础上通过最近邻分类算法完成短文本分类。【结果】相比传统的基于向量空间模型、基于词向量、基于LDA主题模型这三种基于单一模型的分类方法,词向量与LDA相融合的分类方法准确率、召回率、F1值均有提升,分别至少提升3.7%,4.1%和3.9%。【局限】仅应用于最近邻分类器,尚未推广应用到朴素贝叶斯和支持向量机等多种不同的分类器。【结论】基于词向量与LDA相融合的短文本表示模型进行分类,能有效克服短文本的主题聚焦性差及特征稀疏性问题,提高短文本分类性能。
引用
收藏
页码:27 / 35
页数:9
相关论文
共 7 条
[1]   短文本理解研究 [J].
王仲远 ;
程健鹏 ;
王海勋 ;
文继荣 .
计算机研究与发展, 2016, 53 (02) :262-269
[2]   基于Wikipedia的短文本语义相关度计算方法 [J].
王荣波 ;
谌志群 ;
周建政 ;
李治 ;
高飞 .
计算机应用与软件, 2015, 32 (01) :82-85+92
[3]   一种新型朴素贝叶斯文本分类算法 [J].
邸鹏 ;
段利国 .
数据采集与处理, 2014, 29 (01) :71-75
[4]   改进的基于《知网》的词汇语义相似度计算 [J].
朱征宇 ;
孙俊华 .
计算机应用, 2013, 33 (08) :2276-2279+2288
[5]   基于LDA高频词扩展的中文短文本分类 [J].
胡勇军 ;
江嘉欣 ;
常会友 .
现代图书情报技术, 2013, (06) :42-48
[6]   基于LDA模型的文本分类研究 [J].
姚全珠 ;
宋志理 ;
彭程 .
计算机工程与应用 , 2011, (13) :150-153
[7]  
Statistical topic models for multi-label document classification[J] . Timothy Rubin,America Chambers,Padhraic Smyth,Mark Steyvers.Machine Learning . 2012 (1)