中文微博细粒度情绪识别研究

被引:0
作者
雷龙艳
机构
[1] 南华大学
关键词
细粒度情绪识别; 多策略融合方法; 中文微博; NB; SVM; KNN;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
从本世纪初,文本情感研究逐渐成为信息抽取领域中的研究热点,获得了越来越多的关注。特别是Web2.0技术的逐渐普及,微博因为消息简短、发布便捷、实时交互等特点获得了网民极高的喜爱度,广大网民已经从过去单纯的信息获取者变成网络内容的主要制造者。同时,随着自然语言处理和机器学习技术的不断进步和成熟,对微博这种主观性短文本进行情感分析也成为可能,并逐渐得到广泛应用。 针对中文微博的情感分析研究,国内目前主要集中在微博的情感极性判断上,如分析微博表达是积极还是消极,此类研究已经取得了一定成绩并开始广泛应用,然而,随着应用的深入,用户希望能够获取到微博表达的更细致的情感以便了解用户对某些事物的态度,此时传统的微博情感分析研究方法已很难完全满足需求,虽然目前国内近年来对中文微博细粒度情绪识别正在做一些尝试与努力,但效果并不大理想。因此,本文研究了基于中文微博的细粒度情绪分析方法,通过探索新的研究思路和方法,进一步提高情感分析的准确性和实用性。 文本主要针对中文微博的细粒度情绪识别中的关键技术展开研究。分析了中文微博研究难点和微博情感表达特征,提出了一种基于情感词汇本体的多策略集成分析法。首先在对微博的有无情绪分类中,在有大量测试集合的前提下,我们提出了基于迭代的朴素贝叶斯分类算法,对该算法分类为有情绪的微博文本,我们进一步的分析它所表达的细腻情绪(anger愤怒、disgust厌恶、fear恐惧、happiness高兴、like喜好、sadness悲伤、surprise惊讶),使用新颖的文本特征向量表示和权重计算方法量化有情绪微博文本,然后基于支持向量基SVM和K‐最近邻KNN算法分别进行7类细粒度情绪分类,实现对中文微博的细粒度情绪分析。 最后我们以新浪微博为实验数据,在大连理工情感词汇本体基础之上,构建多策略融合分类算法与单一分类算法对比实验,最终实验结果表明,多策略分类算法融合方案在细粒度情绪分析研究中效果更好。且在两类多策略融合分析方法中,“NB&KNN”方案比“NB&SVM”方案稍显优势。 论文的主要贡献在于: 1)提出了基于迭代的朴素贝叶斯分类算法,该算法在先验知识不足的情况下能很好的提升分类性能。 2)扩展丰富了大连理工情感本体库,这将对细粒度情绪识别准确度的提升有很大帮助。 3)研究出中文微博文本新颖的特征向量表示法和权重量化方法。该方法能有效降低数据维数灾难,减小算法计算复杂度并最终提高算法性能。 4)实现了多策略分类算法融合的细粒度情绪分析方法。该多分类算法融合方案比直接使用单一的算法效果有显著提高,为今后的更深入细粒度情绪分析工作提供了思路和理论依据。 通过对中文微博进行细粒度情绪识别分析研究,将为推动电子商务发展,组织机关民意调查,网络舆情监控等提供重要的决策依据。但细粒度情绪分析的准确度依然有很大的改进空间。
引用
收藏
页数:67
共 30 条
[1]
基于句法分析的跨语言情感分析 [J].
陈强 ;
何炎祥 ;
刘续乐 ;
孙松涛 ;
彭敏 ;
李飞 .
北京大学学报(自然科学版), 2014, 50 (01) :55-60
[2]
面向微博短文本的细粒度情感特征抽取方法 [J].
贺飞艳 ;
何炎祥 ;
刘楠 ;
刘健博 ;
彭敏 .
北京大学学报(自然科学版), 2014, 50 (01) :48-54
[3]
基于情绪因子的中文微博情绪识别与分类 [J].
张晶 ;
朱波 ;
梁琳琳 ;
侯敏 ;
滕永林 .
北京大学学报(自然科学版), 2014, 50 (01) :79-84
[4]
多策略中文微博细粒度情绪分析研究 [J].
欧阳纯萍 ;
阳小华 ;
雷龙艳 ;
徐强 ;
余颖 ;
刘志明 .
北京大学学报(自然科学版), 2014, 50 (01) :67-72
[5]
生产者—消费者二维队列模型在舆情监控系统中的应用 [J].
雷龙艳 ;
万亚平 ;
徐强 ;
阳小华 .
南华大学学报(自然科学版), 2013, 27 (03) :56-60
[6]
石鼓网络舆情监控系统的设计与实现 [J].
徐强 ;
万亚平 ;
雷龙艳 ;
阳小华 .
南华大学学报(自然科学版), 2013, 27 (03) :71-77
[7]
中文微博情感分析研究综述 [J].
周胜臣 ;
瞿文婷 ;
石英子 ;
施询之 ;
孙韵辰 .
计算机应用与软件, 2013, 30 (03) :161-164+181
[8]
有效的中文微博短文本倾向性分类算法 [J].
韩忠明 ;
张玉沙 ;
张慧 ;
万月亮 ;
黄今慧 .
计算机应用与软件, 2012, 29 (10) :89-93
[9]
一种基于朴素贝叶斯的微博情感分类 [J].
林江豪 ;
阳爱民 ;
周咏梅 ;
陈锦 ;
蔡泽键 .
计算机工程与科学, 2012, 34 (09) :160-165
[10]
基于方差的CHI特征选择方法 [J].
邱云飞 ;
王威 ;
刘大有 ;
邵良杉 .
计算机应用研究, 2012, 29 (04) :1304-1306