基于词向量预训练的不平衡文本情绪分类

被引:8
作者
林怀逸 [1 ]
刘箴 [1 ]
柴玉梅 [2 ]
刘婷婷 [1 ]
柴艳杰 [1 ]
机构
[1] 宁波大学信息科学与工程学院
[2] 郑州大学信息工程学院
关键词
不平衡分类; 情绪分类; 均衡过采样; 预训练词向量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
深度学习中处理不平衡问题的方法多为代价敏感和采样。该文在词向量迁移的基础上提出预训练任务选择方法。用利于小类别区分的预训练词向量来初始化目标模型,并结合均衡过采样充分利用样本信息保持模型在大类别上的精度,使模型提取的文本特征在大小类别上具有公平性,从特征层面实现了平衡效果。实验结果表明,在文本情绪分类任务中,对比过采样方法,该方法在大部分无严重过拟合情况下有更好的平衡效果。当存在较严重过拟合时,该方法在目标分类数为三时平衡效果显著,并通过实验验证了预训练方法可与代价敏感方法相结合提升平衡性能。
引用
收藏
页码:132 / 142
页数:11
相关论文
共 30 条
[1]  
Bert:Pre-training of deep bidirectional transformers for language understanding. Devlin J,Chang M W,Lee K,et al. . 2018
[2]  
Feature selection for high dimensional imbalanced class data using harmony search[J] . Alireza Moayedikia,Kok-Leong Ong,Yee Ling Boo,William GS Yeoh,Richard Jensen. &nbspEngineering Applications of Artificial Intelligen . 2017
[3]   基于样本权重的不平衡数据欠抽样方法 [J].
熊冰妍 ;
王国胤 ;
邓维斌 .
计算机研究与发展, 2016, 53 (11) :2613-2622
[4]   一种基于区分能力的多类不平衡文本分类特征选择方法 [J].
张延祥 ;
潘海侠 .
中文信息学报, 2015, 29 (04) :111-119
[5]   基于不平衡数据的中文情感分类 [J].
王中卿 ;
李寿山 ;
朱巧明 ;
李培峰 ;
周国栋 .
中文信息学报, 2012, 26 (03) :33-37+64
[6]   Task Independent Fine Tuning for Word Embeddings [J].
Yang, Xuefeng ;
Mao, Kezhi .
IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING, 2017, 25 (04) :885-894
[7]  
On the effective use of pretraining for natural language inference. Ignacio Cases,Minh-Thang Luong,Christopher Potts. . 2017
[8]  
Efficient Estimation of Word Representations in Vector Space. Mikolov T,Chen Kai,Corrado G,et al. Proceedings of ICLR’’13 . 2013
[9]  
A convolutional neural network for modelling sentences. Kalchbrenner N,Grefenstette E,Blunsom P. ACL . 2014
[10]  
An Efficient Cost-Sensitive Feature Selection Using Chaos Genetic Algorithm for Class Imbalance Problem[J] . Jing Bian,Xin-guang Peng,Ying Wang,Hai Zhang,Muhammad N. Akram. &nbspMathematical Problems in Engineering . 2016