近年来,网上的信息资源急剧膨胀,以BBS、blog等形式为主的带有个人情感色彩的言论越来越多,这些言论的内容大多是对一些产品、电影、人物等进行评论,表达自己对事物的主观看法,分析这些文本有着很大的现实意义,因此文本的情感倾向分析成为当前互联网智能信息处理的一个研究热点。它涉及了自然语言处理、信息检索、信息抽取、机器学习等多个领域的研究内容。
情感倾向分析是指对观点的情感极性和强度做判断。分析的结果可以分为三类:褒义、贬义和中立。如果再进行细分可分为五类:强烈褒义、微弱褒义、强烈贬义、微弱贬义和中立。本文的目的是分析网络评论上中文句子的情感倾向,在此过程中包括情感词和短语的情感倾向分析。
本文的主要研究内容包括以下几点。首先分析情感词的倾向。文中构建了情感词词典,采用了基于同义词的SOPMI算法和HowNet计算语义相似度的算法。其次,在短语倾向分析方面,根据一些规则(如依存关系分析)提取与短语中情感词相关的修饰副词和目标词,在此基础上结合情感词的倾向值来计算短语的倾向。最后分析句子的情感倾向,文中主要采取了两种方法,一用方法是将句中各个短语的倾向值加权求和,另一种方法是采用文本分类,将情感倾向分析问题看作一个文本分类的过程,分类器选用SVM,本文重点在特征选取和规则后处理方面进行了改进。
实验结果表明,上述方法使情感词、短语和句子情感倾向分析的准确率和召回率方面都取得了很大的提高。