文本情感分类是指通过挖掘和分析文本中的立场、观点、情绪等主观信息,对文本的情感倾向做出类别判断。随着人们在Web中表达自己观点这一现象越来越普遍,针对文本情感分类的研究也显得越来越重要。
文本情感分类的关键技术有网页文本内容提取、文本表示(向量空间模型、布尔模型、概率模型)、特征提取(文档频率、卡方统计、互信息、信息增益、期望交叉熵、文本证据权)以及文本分类器(贝叶斯分类器、支持向量机、KNN、神经网络)。本文的主要研究内容和工作包括以下几个方面:
(1)实现了网页文本提取技术,并对文本预处理技术进行了研究。在研究从Web服务器获取网页源码技术的基础上,设计了一个正则表达式,以实现网页纯文本的提取,并设计和实现了向量空间模型表示文本的预处理方法。
(2)设计并实现了基于情感词典的情感句识别算法和基于朴素贝叶斯的情感句识别算法来进行文本情感主观性分类:前者经过文本预处理、文本表示,通过与情感词典的比对得到主观句集和客观句集;而后者经过文本预处理、文本表示、提取特征,最后利用朴素贝叶斯分类模型得到主观句集和客观句集。实验表明,基于情感词典的情感句识别算法的分类效果要优于基于朴素贝叶斯的情感句识别算法。
(3)设计并实现了面向文本表示的混合特征提取算法。通过分析对比常用的几种特征提取算法及其优缺点,选择了文档频率、互信息、信息增益、卡方统计四种特征提取算法,并对四个特征子集进行取并操作。实验表明利用该混合特征提取算法进行文本情感极性分类的效果要比使用单一特征提取算法进行分类的效果更好。
(4)根据特征集合的特点分别设计并实现了支持向量机、朴素贝叶斯、KNN三种分类算法来进行文本情感极性分类。通过实验表明:分类效果最好的是支持向量机,但其计算量也最大;朴素贝叶斯次之,但计算量比支持向量机要小;分类效果最差的是KNN,但其运算速度最快。