中文文本情感分类的研究

被引:0
作者
曾一平
机构
[1] 北京交通大学
关键词
文本分类; 特征提取; 文本情感分类;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
文本情感分类是指通过挖掘和分析文本中的立场、观点、情绪等主观信息,对文本的情感倾向做出类别判断。随着人们在Web中表达自己观点这一现象越来越普遍,针对文本情感分类的研究也显得越来越重要。 文本情感分类的关键技术有网页文本内容提取、文本表示(向量空间模型、布尔模型、概率模型)、特征提取(文档频率、卡方统计、互信息、信息增益、期望交叉熵、文本证据权)以及文本分类器(贝叶斯分类器、支持向量机、KNN、神经网络)。本文的主要研究内容和工作包括以下几个方面: (1)实现了网页文本提取技术,并对文本预处理技术进行了研究。在研究从Web服务器获取网页源码技术的基础上,设计了一个正则表达式,以实现网页纯文本的提取,并设计和实现了向量空间模型表示文本的预处理方法。 (2)设计并实现了基于情感词典的情感句识别算法和基于朴素贝叶斯的情感句识别算法来进行文本情感主观性分类:前者经过文本预处理、文本表示,通过与情感词典的比对得到主观句集和客观句集;而后者经过文本预处理、文本表示、提取特征,最后利用朴素贝叶斯分类模型得到主观句集和客观句集。实验表明,基于情感词典的情感句识别算法的分类效果要优于基于朴素贝叶斯的情感句识别算法。 (3)设计并实现了面向文本表示的混合特征提取算法。通过分析对比常用的几种特征提取算法及其优缺点,选择了文档频率、互信息、信息增益、卡方统计四种特征提取算法,并对四个特征子集进行取并操作。实验表明利用该混合特征提取算法进行文本情感极性分类的效果要比使用单一特征提取算法进行分类的效果更好。 (4)根据特征集合的特点分别设计并实现了支持向量机、朴素贝叶斯、KNN三种分类算法来进行文本情感极性分类。通过实验表明:分类效果最好的是支持向量机,但其计算量也最大;朴素贝叶斯次之,但计算量比支持向量机要小;分类效果最差的是KNN,但其运算速度最快。
引用
收藏
页数:65
共 15 条
[1]
基于HTML结构特征的网页信息提取 [J].
胡瑜 ;
王立志 .
辽宁石油化工大学学报, 2009, 29 (03) :65-69
[2]
在C#中利用正则表达式实现字符串搜索功能 [J].
张志远 .
电脑编程技巧与维护, 2005, (10) :29-33+41
[3]
中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[4]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[5]
自然语言处理中的语言模型及其比较研究 [J].
张仰森 ;
徐波 ;
曹元大 .
广西师范大学学报(自然科学版), 2003, (01) :16-24
[6]
基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[7]
汉语自动分词研究中的苦干理论问题 [J].
孙茂松 ;
邹嘉彦 .
语言文字应用, 1995, (04)
[8]
SVM在文本分类中的应用 [D]. 
叶志刚 .
哈尔滨工程大学,
2006
[9]
汉语语句主题语义倾向分析方法的研究.[A].姚天昉;娄德成;.第九届全国计算语言学学术会议.2007,
[10]
基于语义理解的文本倾向性识别机制.[A].徐琳宏;林鸿飞;杨志豪;.第三届学生计算语言学研讨会.2006,