基于深度语义特征的情感分析研究

被引:0
作者
陈鹏
机构
[1] 哈尔滨工业大学
关键词
情感分类; 情感抽取; 领域自适应; 深度学习; 神经网络;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
近几年深度学习方法在自然语言处理领域越来越受到关注,深度学习通过特征组合使其能够表示句子的深层语义特征。本文基于深度学习的神经网络模型,研究情感分类的领域自适应、评价对象抽取与评价对象的情感倾向性判定这三个方面的情感分析中的关键问题,这些问题的研究方法不仅可以用在情感分析任务中,还能应用到许多其他的自然语言处理任务中,因此该论文的研究具有重要的理论价值和研究意义。在情感分类的领域自适应研究中,针对大量有标注语料不易获取的问题,本文提出使用有标注语料与无标注语料联合训练词向量,并采用主动学习与自学习相结合的策略进行领域迁移的方法。实验结果表明在训练语料较少的情况下,联合训练能够明显提高词向量的泛化能力。同时词向量储存了用于情感分析的大部分知识,当从一个领域向另一个领域迁移时,词向量只需做少量的调整,因此在领域迁移过程中只需少量迭代就能使目标领域的分类器达到良好的性能。使用主动学习策略可以缓解单纯依赖自学习来扩展语料所出现的自误导现象,实验结果表明,加入主动学习后,分类器在迭代后期的性能下降现象得到了缓解,而且其性能还略优于基于有监督的训练方法。在评价对象的抽取研究中,针对统计学习方法中特征需要人为设定并且还受到上下文窗口大小的限制,导致抽取结果的召回率较低的问题,本文提出了基于双向循环神经网络(BRNN)来抽取评价对象的方法。双向循环神经网络通过引入正向隐藏层和反向隐藏层,使之能分别储存上文与下文的信息,并且不受窗口大小的限制。本文还添加了词性、依存句法树关系等特征,并与条件随机场模型进行了比较,实验结果表明语言学特征能够提高抽取性能,而且BRNN在召回率方面优于CRF。该方法在2015年全国中文倾向性评测(COAE2015)的受限资源测试上取得第一名。在评价对象的情感判定研究中,针对已有方法对评价对象情感判定没有充分利用上下文信息的问题,本文提出联合长短期记忆模型(LSTM)与卷积神经网络模型(CNN)判定评价对象情感的方法。首先判断评价对象所在分句的情感倾向,然后根据分句的情感预测评价对象的情感,其中LSTM用来生成上下文向量,CNN用于从词向量序列中抽取特征。该联合模型能够充分利用上下文信息,同时能一并解决否定词、网络新词等对评价对象情感判定的产生影响的各种问题。实验结果表明该方法对分句进行情感判定是有效的,通过分句的情感极性预测评价对象的情感极性,其实验结果明显优于常用的基于情感词判定的方法。
引用
收藏
页数:80
共 4 条
[1]
基于文本集密度的特征选择与权重计算方案 [J].
吴科 ;
石冰 ;
卢军 ;
牛小飞 .
中文信息学报, 2004, (01) :42-47
[2]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]
Approximation by superpositions of a sigmoidal function.[J].G. Cybenko.Mathematics of Control; Signals and Systems.1989, 4
[4]
自动文本分类若干基本问题研究 [D]. 
宋枫溪 .
南京理工大学,
2004