近10年来中国互联网取得了长足的发展,截至2010年底中国互联网用户人数已超过4.5亿。随着互联网规模的扩大,网络在信息传播过程中的作用和影响力越来越大。2010年11月,网络热词“给力”登上了人民日报,更是见证了网民和网络的力量。互联网的方便、快捷,使之成为了社会舆情的重要载体,并发挥日益重要的作用。近年来发生的重大事件,都最先在网上激烈讨论并引发巨大反响。它带来便捷信息服务的同时,也产生了一系列问题,例如传播网络谣言和恐慌的负面效应。深入研究网络舆情,对国家正确引导民情和监管互联网具有重要意义。
研究互联网舆情,一个重要任务是分析网络舆情事件、网民关注度及其间关系。本文分析了搜索量与网民关注度,地理分布与网民关注度的关系,并对新闻事件报道书写特征进行了研究。本文主要做了以下三方面工作:
第一,对搜索引擎搜索量与互联网用户关注度之间关系进行分析,结合常规文本处理的中文分词、文本特征提取和文本分类技术,实现了一种互联网舆情信息收集方法。文中的互联网网舆情信息收集主要适用于快速从高搜索量的热点事件信息中收集舆情信息,有效地结合了搜索量与文本分析技术。
第二,对新闻报道书写特征进行分析,结合中科院分词系统的分词功能及词性标注,通过人工设定部分提取命名实体的经验规则,实现了事件四要素提取。适宜于快速从web突发新闻中提取事件要素,能应用于文本摘要自动生成等方面。
第三,对舆情分布呈现地域性进行了研究,实现了两种不同维度的可视化数据挖掘。通过从地域结构分析互联网舆情,借助Google Maps实现了细粒度可视化呈现网民舆情关注度分布,使用Flex技术实现了更加宏观的粗粒度舆情地图展示。