舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。随着网络的普及,网络舆情以“舆论多元”为最大特点,网络舆情的信息丰度呈现“爆炸”的态势,一是网络舆情信息的数量极为庞大,二是其类别繁多,三是背景信息复杂,尤其是突发事件和社会流行事件,常常会立即引发各种社会集团、政治势力的共同关注。在这种情况下,要人工去甄别每个意见的具体情况并加以分类统计是不现实的。只有采用计算机技术自动地对网络舆情语料进行分析整理,才能够建立起全面、有效、快速的舆情监控预警机制。
传统的网络舆情监控系统中,话题发现方法多采用聚类基础上考察相关评论规模的方法,往往对网民评论的情感因素关注不足,而且通常是停留在热点话题发现的程度,没有进一步根据倾向性特性进行区分。近年来,虽然有学者对舆情的特性进行了深度分析的研究,给出了一些舆情关键点的定义,但是没有给出具体的数学模型,也没有提出可行的发现方案,发现方法多是手工采集整理。本文尝试将自然语言理解技术中的文本倾向性分析技术引入舆情监控系统之中,对文本倾向性分析技术在舆情监控系统中的应用进行了研究。本文首先对引入文本倾向性分析技术的舆情监控系统进行了整体设计,并详细设计了各主要模块;在建立词语倾向性词典的基础上,研究了多种网络评论倾向性分析方案的优缺点,分析比较了多种段落评论分析方案;最后在对主题文章进行聚类的基础上,根据参与评论的网民规模发现其中的热点话题,建立包含网民倾向性因素的极性话题、焦点话题、敏感话题发现模型,以提高舆情监控系统的实用价值。