学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
词向量与LDA相融合的短文本分类方法
被引:41
作者
:
张群
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军电子工程学院
张群
王红军
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军电子工程学院
王红军
王伦文
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军电子工程学院
王伦文
机构
:
[1]
中国人民解放军电子工程学院
来源
:
现代图书情报技术
|
2016年
/ 12期
关键词
:
短文本分类;
词向量;
LDA主题模型;
最近邻分类器;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
【目的】针对短文本主题聚焦性差以及严重的特征稀疏问题,设计一种基于词向量与LDA主题模型相融合的短文本分类方法。【方法】从"词"粒度及"文本"粒度层面同时对短文本进行精细语义建模,首先基于Word2Vec训练词向量并通过相加平均法合成"词"粒度层面的短文本向量,基于吉布斯采样法训练LDA主题模型并根据主题概率最大原则对短文本进行特征扩展,然后基于词向量相似度计算扩展特征权重得到"文本"粒度层面的短文本向量,最后通过向量拼接构建词向量与LDA相融合的短文本表示模型,在此基础上通过最近邻分类算法完成短文本分类。【结果】相比传统的基于向量空间模型、基于词向量、基于LDA主题模型这三种基于单一模型的分类方法,词向量与LDA相融合的分类方法准确率、召回率、F1值均有提升,分别至少提升3.7%,4.1%和3.9%。【局限】仅应用于最近邻分类器,尚未推广应用到朴素贝叶斯和支持向量机等多种不同的分类器。【结论】基于词向量与LDA相融合的短文本表示模型进行分类,能有效克服短文本的主题聚焦性差及特征稀疏性问题,提高短文本分类性能。
引用
收藏
页码:27 / 35
页数:9
相关论文
共 7 条
[1]
短文本理解研究
[J].
论文数:
引用数:
h-index:
机构:
王仲远
;
程健鹏
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院
牛津大学计算机科学学院
中国人民大学信息学院
程健鹏
;
王海勋
论文数:
0
引用数:
0
h-index:
0
机构:
Facebook
中国人民大学信息学院
王海勋
;
论文数:
引用数:
h-index:
机构:
文继荣
.
计算机研究与发展,
2016,
53
(02)
:262
-269
[2]
基于Wikipedia的短文本语义相关度计算方法
[J].
王荣波
论文数:
0
引用数:
0
h-index:
0
机构:
杭州电子科技大学认知与智能计算研究所
杭州电子科技大学认知与智能计算研究所
王荣波
;
谌志群
论文数:
0
引用数:
0
h-index:
0
机构:
杭州电子科技大学认知与智能计算研究所
杭州电子科技大学认知与智能计算研究所
谌志群
;
周建政
论文数:
0
引用数:
0
h-index:
0
机构:
天格科技(杭州)有限公司
杭州电子科技大学认知与智能计算研究所
周建政
;
李治
论文数:
0
引用数:
0
h-index:
0
机构:
天格科技(杭州)有限公司
杭州电子科技大学认知与智能计算研究所
李治
;
高飞
论文数:
0
引用数:
0
h-index:
0
机构:
杭州电子科技大学认知与智能计算研究所
杭州电子科技大学认知与智能计算研究所
高飞
.
计算机应用与软件,
2015,
32
(01)
:82
-85+92
[3]
一种新型朴素贝叶斯文本分类算法
[J].
论文数:
引用数:
h-index:
机构:
邸鹏
;
段利国
论文数:
0
引用数:
0
h-index:
0
机构:
太原理工大学计算机科学与技术学院
段利国
.
数据采集与处理,
2014,
29
(01)
:71
-75
[4]
改进的基于《知网》的词汇语义相似度计算
[J].
论文数:
引用数:
h-index:
机构:
朱征宇
;
论文数:
引用数:
h-index:
机构:
孙俊华
.
计算机应用,
2013,
33
(08)
:2276
-2279+2288
[5]
基于LDA高频词扩展的中文短文本分类
[J].
论文数:
引用数:
h-index:
机构:
胡勇军
;
论文数:
引用数:
h-index:
机构:
江嘉欣
;
常会友
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学软件学院
中山大学管理学院
常会友
.
现代图书情报技术,
2013,
(06)
:42
-48
[6]
基于LDA模型的文本分类研究
[J].
姚全珠
论文数:
0
引用数:
0
h-index:
0
机构:
西安理工大学计算机科学与工程学院
姚全珠
;
论文数:
引用数:
h-index:
机构:
宋志理
;
论文数:
引用数:
h-index:
机构:
彭程
.
计算机工程与应用 ,
2011,
(13)
:150
-153
[7]
Statistical topic models for multi-label document classification[J] . Timothy Rubin,America Chambers,Padhraic Smyth,Mark Steyvers.Machine Learning . 2012 (1)
←
1
→
共 7 条
[1]
短文本理解研究
[J].
论文数:
引用数:
h-index:
机构:
王仲远
;
程健鹏
论文数:
0
引用数:
0
h-index:
0
机构:
微软亚洲研究院
牛津大学计算机科学学院
中国人民大学信息学院
程健鹏
;
王海勋
论文数:
0
引用数:
0
h-index:
0
机构:
Facebook
中国人民大学信息学院
王海勋
;
论文数:
引用数:
h-index:
机构:
文继荣
.
计算机研究与发展,
2016,
53
(02)
:262
-269
[2]
基于Wikipedia的短文本语义相关度计算方法
[J].
王荣波
论文数:
0
引用数:
0
h-index:
0
机构:
杭州电子科技大学认知与智能计算研究所
杭州电子科技大学认知与智能计算研究所
王荣波
;
谌志群
论文数:
0
引用数:
0
h-index:
0
机构:
杭州电子科技大学认知与智能计算研究所
杭州电子科技大学认知与智能计算研究所
谌志群
;
周建政
论文数:
0
引用数:
0
h-index:
0
机构:
天格科技(杭州)有限公司
杭州电子科技大学认知与智能计算研究所
周建政
;
李治
论文数:
0
引用数:
0
h-index:
0
机构:
天格科技(杭州)有限公司
杭州电子科技大学认知与智能计算研究所
李治
;
高飞
论文数:
0
引用数:
0
h-index:
0
机构:
杭州电子科技大学认知与智能计算研究所
杭州电子科技大学认知与智能计算研究所
高飞
.
计算机应用与软件,
2015,
32
(01)
:82
-85+92
[3]
一种新型朴素贝叶斯文本分类算法
[J].
论文数:
引用数:
h-index:
机构:
邸鹏
;
段利国
论文数:
0
引用数:
0
h-index:
0
机构:
太原理工大学计算机科学与技术学院
段利国
.
数据采集与处理,
2014,
29
(01)
:71
-75
[4]
改进的基于《知网》的词汇语义相似度计算
[J].
论文数:
引用数:
h-index:
机构:
朱征宇
;
论文数:
引用数:
h-index:
机构:
孙俊华
.
计算机应用,
2013,
33
(08)
:2276
-2279+2288
[5]
基于LDA高频词扩展的中文短文本分类
[J].
论文数:
引用数:
h-index:
机构:
胡勇军
;
论文数:
引用数:
h-index:
机构:
江嘉欣
;
常会友
论文数:
0
引用数:
0
h-index:
0
机构:
中山大学软件学院
中山大学管理学院
常会友
.
现代图书情报技术,
2013,
(06)
:42
-48
[6]
基于LDA模型的文本分类研究
[J].
姚全珠
论文数:
0
引用数:
0
h-index:
0
机构:
西安理工大学计算机科学与工程学院
姚全珠
;
论文数:
引用数:
h-index:
机构:
宋志理
;
论文数:
引用数:
h-index:
机构:
彭程
.
计算机工程与应用 ,
2011,
(13)
:150
-153
[7]
Statistical topic models for multi-label document classification[J] . Timothy Rubin,America Chambers,Padhraic Smyth,Mark Steyvers.Machine Learning . 2012 (1)
←
1
→