基于情感词词典的中文句子情感倾向分析

被引:0
作者
潘文彬
机构
[1] 北京邮电大学
关键词
情感倾向性; 情感词置信度; TSVM; 文本分类; 多层次分; 类; 褒贬分类;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
文本情感倾向分析是指通过计算语言学的相关方法,抽取和分析文本的主观倾向性信息,包括判断情感极性,以及从中抽取出于情感,倾向性论述相关的各要素,这些要素包括文本的评价对象,文本的倾向性(包括褒义,贬义,中立等),以及文本在该情感极性上的强度等。随着互联网的普及,网络上的评论性文本越来越多,人们急需将这些文本进行自动的分析,因此对文本倾向性分析的研究成为互联网领域的研究热点。句子级的中文文本情感倾向性分析是其中的一个非常基础并且重要研究课题。 本文在认真分析研究有关资料,并对一些具有代表性的情感倾向性分析算法研究的基础上,探讨了一般情感倾向性分析常用方法的原理和不足之处,以及在情感倾向性分析过程中遇到的一些问题,针对这些问题提出了相应的解决办法并通过实验与其它算法进行了比较。 本文的内容涉及下面4个方面: 1、提出了训练语料规模失衡的情况下的如何保证算法对语料平衡要求的处理方法;从而解决了训练语料规模失衡对分类效果带来的负面影响。 2、通过对情感词置信度的评价算法研究,提出了对大规模情感词词典的拆分方法,降低了置信度较低的情感词对情感倾向性分析带来的负面影响,并通过实验验证了该方法的有效性。 3、通过对训练语料的深入研究,提出了建立规则集的具体算法,从而解决了如何正确分析部分不含有情感词或者情感词强度较弱语料的情感倾向性问题。 4、提出了多层次分类算法,解决了单一算法在准确率和召回率上不能兼顾的问题。在多层次分类算法中,首先对主观句进行中性和极性的二分类,然后对极性文本进行褒贬二分类。在褒贬二分类过程中使用不同的分类策略,分层处理,逐层推进,实验表明该算法在召回率和准确率上都有所提高。
引用
收藏
页数:65
共 38 条
[1]
基于Stanford Parser的实体间关系识别 [J].
刘建华 ;
张智雄 .
现代图书情报技术, 2009, (05) :1-5
[2]
汉语自动句法分析的理论与方法 [J].
刘挺 ;
马金山 .
当代语言学, 2009, 11 (02) :100-112+189
[3]
情感分析研究综述 [J].
周立柱 ;
贺宇凯 ;
王建勇 .
计算机应用, 2008, (11) :2725-2728
[4]
基于HowNet的句子褒贬倾向性研究 [J].
熊德兰 ;
程菊明 ;
田胜利 .
计算机工程与应用, 2008, (22) :143-145
[5]
基于句法结构特征分析及分类技术的答案提取算法 [J].
胡宝顺 ;
王大玲 ;
于戈 ;
马婷 .
计算机学报, 2008, (04) :662-676
[6]
支持向量机理论的研究与进展 [J].
宋召青 ;
崔和 ;
胡云安 .
海军航空工程学院学报, 2008, (02) :143-148+152
[7]
面向互联网评论情感分析的中文主观性自动判别方法研究.[J].叶强;张紫琼;罗振雄;.信息系统学报.2007, 01
[8]
基于条件随机场(CRFs)的中文词性标注方法 [J].
洪铭材 ;
张阔 ;
唐杰 ;
李涓子 .
计算机科学, 2006, (10) :148-151+155
[9]
基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[10]
一种基于概率上下文无关文法的汉语句法分析 [J].
林颖 ;
史晓东 ;
郭锋 .
中文信息学报, 2006, (02) :1-7+32