网络舆情分析关键技术研究

被引:0
作者
刘泽光
机构
[1] 东北大学
关键词
舆情分析; 文本分类; 情感倾向分析;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着互联网的快速普及,网络舆情已经成为公共舆情的重要组成部分。网络舆情和传统舆情相比,具有数据量大、突发性强、影响范围广等特点。对于海量的舆情信息,使用人工管理的方式显然不能很好的了解舆情的发展趋势,不能很好的应对突发事件。为了应对网络舆情的特点,需要使用自动分析的手段对互联网的舆情进行处理分析,掌握其发展趋势,以便相关部门及时进行干预。 本文针对舆情分析中突发事件的分类和评论文本的情感倾向分析进行研究。使用数据挖掘中的文本分类技术,对突发事件进行预警。由于突发事件的内容主要是文本,因此突发事件的预警的本质是文本分类。同时研究了舆情分析中的评论文本情感倾向分析。主要的研究内容和创新点有: (1)本文改进了基于机器学习的文本分类的流程,提出了基于特征词位置和长度加权算法、同义词合并加权算法。传统的特征权重计算算法,没有考虑到特征词的位置信息和语义信息。文章的标题能很好的代表文章的内容,标题中的特征词相比文章中的特征词更具代表性,能更好的代表该文章的类别,因此需要对不同位置的特征词进行权重的调整。通常来说,词意越是明确词的长度就越长,越能代表某些领域的专业性的东西,因此需要针对词的长度进行权重调整,词越长权重越大。在同一篇文章中存在着,很多的同义词,传统的特征权重算法是基于统计的,会将同义的两个词视为两个特征,本文提出的同义词合并加权算法可以很好的解决这个问题。 (2)本文改进了基于机器学习的文本情感倾向分类算法,在计算特征权重的过程中,对具有情感色彩的词根据情感倾向的程度进行加权,对于情感词所在的短语进行了语义分析,根据情感词附近的程度副词否定词和连词的不同搭配方式进行了讨论,并得出了程度副词否定词和连词对情感词的情感倾向及强弱影响的计算公式。并以此为基础对基于机器学习的情感分类算法做出了改进。 实验结果表明,本文提出的基于特征词位置和长度加权算法、同义词合并加权算法对突发事件舆情信息的分类上分类准确率高于未改进的提高2-3%。本文提出的基于语义的情感词特征加权算法在训练集充分的情况下情感倾向分类效果比基于机器学习的情感倾向分类效果要好。
引用
收藏
页数:75
共 12 条
[1]
基于内容的互联网舆情信息挖掘关键技术研究 [D]. 
刘玉国 .
山东大学,
2011
[2]
网络舆情突发事件预警系统、指标与机制 [J].
曾润喜 ;
徐晓林 .
情报杂志 , 2009, (11) :52-54+51
[3]
中文基础情感词词典构建方法研究 [J].
柳位平 ;
朱艳辉 ;
栗春亮 ;
向华政 ;
文志强 .
计算机应用, 2009, 29 (10) :2875-2877
[4]
基于Boosting的BAN组合分类器 [J].
孙笑微 ;
李晓毅 .
数学的实践与认识, 2009, 39 (03) :120-125
[5]
基于KL距离的TAN分类器判别性学习方法 [J].
冯奇 ;
田凤占 ;
黄厚宽 .
模式识别与人工智能, 2008, 21 (06) :806-811
[6]
互联网舆情分析及应用研究 [J].
许鑫 ;
章成志 .
情报科学 , 2008, (08) :1194-1200+1204
[7]
基于信息增益的特征词权重调整算法研究 [J].
张玉芳 ;
陈小莉 ;
熊忠阳 .
计算机工程与应用, 2007, (35) :159-161
[8]
[9]
FAST: a roc-based feature selection metric for small samples and imbalanced data classification problems..Chen XW;Wasikowski M;.Proc of the 14th SIGKDD.2008,
[10]
Affective Computing..Picard RW;.Cambridge;MA.1997,