基于CNN特征空间的微博多标签情感分类

被引:43
作者
孙松涛 [1 ]
何炎祥 [1 ,2 ]
机构
[1] 武汉大学计算机学院
[2] 武汉大学软件工程国家重点实验室
基金
高等学校博士学科点专项科研基金;
关键词
情感分类; 多标签分类; 词向量表示; 卷积神经网络; 语义合成;
D O I
10.15961/j.jsuese.201600780
中图分类号
TP183 [人工神经网络与计算]; TP391.1 [文字信息处理];
学科分类号
120506 [数字人文]; 140502 [人工智能];
摘要
面对微博情感评测任务中的多标签分类问题时,基于向量空间模型的传统文本特征表示方法难以提供有效的语义特征。基于深度学习的词向量表示技术,能够很好地体现词语的语法和语义关系,且可以依据语义合成原理有效地构建句子的特征表示向量。作者提出一个针对微博句子的多标签情感分类系统,首先从1个大规模的无标注微博文本数据集中学习中文词语的词向量表示,然后采用卷积神经网络(convolution neural network,CNN)模型进行有监督的多情感分类学习,利用学习到的CNN模型将微博句子中的词向量合成为句子向量,最后将这些句子向量作为特征训练多标签分类器,完成微博的多标签情感分类。2013年NLPCC(Natural Language Processing and Chinese Computing)会议的微博情感评测公开数据集中,相比最优评测结果的宽松指标和严格指标,本系统的最佳分类性能分别提升了19.16%和17.75%;采用Recursive Neural Tensor Network模型合成句子向量的方法,取得目前已知文献中的最佳分类性能,系统将2个指标分别提升了3.66%和2.89%。采用多种多标签分类器来对比不同的特征表示方法,发现基于CNN特征空间的句子向量具有最好的情感语义区分度;通过对CNN迭代训练过程的分析,体现了语义合成过程中的模式识别规律。进一步的工作包括引入更多合适的深度学习模型,并深入探索基于词向量的语义合成现象。
引用
收藏
页码:162 / 169
页数:8
相关论文
共 8 条
[1]
文本情感分析 [J].
赵妍妍 ;
秦兵 ;
刘挺 .
软件学报, 2010, 21 (08) :1834-1848
[2]
Classifier chains for multi-label classification [J].
Read, Jesse ;
Pfahringer, Bernhard ;
Holmes, Geoff ;
Frank, Eibe .
MACHINE LEARNING, 2011, 85 (03) :333-359
[3]
Composition in Distributional Models of Semantics [J].
Mitchell, Jeff ;
Lapata, Mirella .
COGNITIVE SCIENCE, 2010, 34 (08) :1388-1429
[4]
Multilabel classification via calibrated label ranking [J].
Fuernkranz, Johannes ;
Huellermeier, Eyke ;
Mencia, Eneldo Loza ;
Brinker, Klaus .
MACHINE LEARNING, 2008, 73 (02) :133-153
[5]
M L-KNN : A lazy learning approach to multi-label learning.[J].Min-Ling Zhang;Zhi-Hua Zhou.Pattern Recognition.2007, 7
[6]
Learning multi-label scene classification [J].
Boutell, MR ;
Luo, JB ;
Shen, XP ;
Brown, CM .
PATTERN RECOGNITION, 2004, 37 (09) :1757-1771
[7]
A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167
[8]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11