基于word2vec词模型的中文短文本分类方法

被引:71
作者
高明霞
李经纬
机构
[1] 北京工业大学信息学部
关键词
短文本; 中文文本分类; 维基百科; word2vec; 词模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。
引用
收藏
页码:34 / 41
页数:8
相关论文
共 14 条
[1]
基于加权word2vec的微博情感分析 [J].
李锐 ;
张谦 ;
刘嘉勇 .
通信技术, 2017, 50 (03) :502-506
[2]
基于word2vec的数字图书馆本体构建技术研究 [J].
闭炳华 .
现代电子技术, 2016, 39 (15) :90-94
[3]
基于Word2Vec的一种文档向量表示 [J].
唐明 ;
朱磊 ;
邹显春 .
计算机科学, 2016, 43 (06) :214-217+269
[4]
Word2vec的核心架构及其应用 [J].
熊富林 ;
邓怡豪 ;
唐晓晟 .
南京师范大学学报(工程技术版), 2015, 15 (01) :43-48
[5]
支持向量机理论及算法研究综述 [J].
汪海燕 ;
黎建辉 ;
杨风雷 .
计算机应用研究, 2014, 31 (05) :1281-1286
[6]
国内中文自动分词技术研究综述 [J].
奉国和 ;
郑伟 .
图书情报工作, 2011, (02) :41-45
[7]
维基百科研究综述 [J].
赵飞 ;
周涛 ;
张良 ;
马鸣卉 ;
刘金虎 ;
余飞 ;
查一龙 ;
李睿琪 .
电子科技大学学报, 2010, (03) :321-334
[8]
使用数据挖掘工具Weka [J].
陆远蓉 .
电脑知识与技术, 2008, (06) :988-990+993
[9]
基于概念的短文本分类 [D]. 
蔡志威 .
华南理工大学,
2016
[10]
基于自身特征的短文本分类研究 [D]. 
杨超群 .
合肥工业大学,
2016