随着互联网的快速普及,网络舆情已经成为公共舆情的重要组成部分。网络舆情和传统舆情相比,具有数据量大、突发性强、影响范围广等特点。对于海量的舆情信息,使用人工管理的方式显然不能很好的了解舆情的发展趋势,不能很好的应对突发事件。为了应对网络舆情的特点,需要使用自动分析的手段对互联网的舆情进行处理分析,掌握其发展趋势,以便相关部门及时进行干预。
本文针对舆情分析中突发事件的分类和评论文本的情感倾向分析进行研究。使用数据挖掘中的文本分类技术,对突发事件进行预警。由于突发事件的内容主要是文本,因此突发事件的预警的本质是文本分类。同时研究了舆情分析中的评论文本情感倾向分析。主要的研究内容和创新点有:
(1)本文改进了基于机器学习的文本分类的流程,提出了基于特征词位置和长度加权算法、同义词合并加权算法。传统的特征权重计算算法,没有考虑到特征词的位置信息和语义信息。文章的标题能很好的代表文章的内容,标题中的特征词相比文章中的特征词更具代表性,能更好的代表该文章的类别,因此需要对不同位置的特征词进行权重的调整。通常来说,词意越是明确词的长度就越长,越能代表某些领域的专业性的东西,因此需要针对词的长度进行权重调整,词越长权重越大。在同一篇文章中存在着,很多的同义词,传统的特征权重算法是基于统计的,会将同义的两个词视为两个特征,本文提出的同义词合并加权算法可以很好的解决这个问题。
(2)本文改进了基于机器学习的文本情感倾向分类算法,在计算特征权重的过程中,对具有情感色彩的词根据情感倾向的程度进行加权,对于情感词所在的短语进行了语义分析,根据情感词附近的程度副词否定词和连词的不同搭配方式进行了讨论,并得出了程度副词否定词和连词对情感词的情感倾向及强弱影响的计算公式。并以此为基础对基于机器学习的情感分类算法做出了改进。
实验结果表明,本文提出的基于特征词位置和长度加权算法、同义词合并加权算法对突发事件舆情信息的分类上分类准确率高于未改进的提高2-3%。本文提出的基于语义的情感词特征加权算法在训练集充分的情况下情感倾向分类效果比基于机器学习的情感倾向分类效果要好。