互联网舆情信息挖掘方法研究

被引:0
作者
杜阿宁
机构
[1] 哈尔滨工业大学
关键词
互联网信息挖掘; 舆情挖掘; 信息过滤; 频繁项挖掘; 互联网舆情态势计量;
D O I
暂无
年度学位
2007
学位类型
博士
导师
摘要
及时掌握舆情动态、积极引导社会舆论,是维护社会稳定和执政党执政安全的重要举措。随着Internet迅猛发展,互联网拥有越来越庞大的用户群,且逐渐发展成为群众发布信息、获取信息和传递信息的主要载体。因此,基于互联网的舆情信息挖掘技术越来越受到广泛关注。舆情是指一定时期内一定范围内的社会群体对某些社会现象和现实的主观反映。互联网舆情信息挖掘技术作为舆情信息挖掘的有效手段成为研究热点。然而,现有互联网舆情信息挖掘技术的研究中暴露出信息海量性、处理时效性和预警准确性方面的问题,因此亟需互联网舆情信息挖掘在理论体系和挖掘方法上实现突破。 本文针对互联网舆情信息挖掘技术进行研究,在明确舆情及其相关概念基础上,着重探讨互联网舆情信息挖掘的体系结构和互联网舆情信息形成过程中不同阶段所采用的不同挖掘方法。主要研究内容如下: 互联网舆情信息挖掘的体系结构是一项重要的研究内容。本文提出包括属性层、信息采集层、挖掘层和处置层的互联网舆情信息挖掘四层体系结构。其中属性层覆盖舆情信息存在空间、发生时间、变化走势和转化机制中的一般规律;信息采集层覆盖互联网舆情信息采集过程中涉及到的关注主题类、采集空间、采集内容等问题;挖掘层覆盖互联网舆情信息处于不同挖掘时机、基于不同挖掘目的、所采用的挖掘方法;处置层覆盖互联网舆情信息的评价、分析与处置手段。四层体系结构是互联网舆情信息挖掘的基础。 在互联网舆情信息的产生阶段,本文提出内容敏感网页的舆情监控方法,实现敏感信息监控和不良信息过滤。针对内容敏感网页监控方法,本文提出用户兴趣聚焦度的概念,把用户过滤需求看作以用户感兴趣事物为核心、由不同用户兴趣聚焦度为半径形成的非形式化连续空间,借此表达用户在过滤倾斜情况上的需求。基于用户兴趣聚焦度,本文提出中文敏感网页过滤算法,一方面把网页结构中的URL分析、主题句分析、正文分析相结合,另一方面把用户兴趣聚焦度量化后引入机器学习算法的训练阶段用于正文分析。实验结果表明,内容敏感网页过滤算法有效提高了网页的过滤精度和处理速度,解决了互联网舆情信息产生阶段的舆情发现问题。 在互联网舆情信息的传播阶段,本文提出针对大多数用户阅读的新闻主题进行挖掘的舆情监测方法,及时了解群众关心的舆情热点并避免某些问题转化为突发事件爆发。针对频繁访问主题监控方法,本文提出基于差值编码双向链表的数据流中频繁项监测确定性算法Frequent Sketch(FS)。FS算法的空间复杂度O(log(εn)/ε),数据项平摊处理时间O(1),算法生成的全局摘要S是ε-亏度摘要。基于FS算法及其在窗口数据流上的扩展算法FS-Win,本文提出一种互联网频繁访问主题挖掘算法。实验分析表明,该算法能够实时地进行用户频繁访问主题挖掘,解决了互联网舆情信息传播阅览阶段的监测问题。 在互联网舆情信息的转载阶段,本文提出针对大多数网页转载的新闻主题进行挖掘的舆情计量方法,了解当前互联网舆情主题的状态,发现热门舆情事件的发生和群众对事件的舆论倾向。针对舆情态势计量方法,本文提出NISAC指数方法,NISAC指数借鉴经济指数和社会指数的编制方法,以互联网空间中含有特定词的页面数量为基础进行指数编制。数据分析表明,NISAC指数能够对互联网反映出的社会运行安全态势进行监测、评估和预警,解决了互联网舆情信息转载阶段的掌控问题。
引用
收藏
页数:135
共 33 条
[1]
基于分类规则树的频繁模式文本分类 [J].
陈晓云 ;
陈袆 ;
王雷 ;
李荣陆 ;
胡运发 .
软件学报, 2006, (05) :1017-1025
[2]
互联网内容及舆情深度分析模式 [J].
谢海光 ;
陈中润 .
中国青年政治学院学报, 2006, (03) :95-100
[4]
突发性群体事件中舆情信息的汇集与分析 [J].
刘毅 .
学术交流, 2005, (10)
[5]
以科技手段辅助网络舆情突发事件的监测分析——方正智思舆情辅助决策支持系统.[J]..信息化建设.2005, 10
[6]
舆情视角下的群体性突发事件机制研究 [J].
刘毅 .
湖北社会科学, 2005, (09) :160-162
[7]
舆情研究中对系统方法的运用与创新 [J].
张克生 .
理论与现代化, 2005, (05) :65-68
[8]
2004年舆情研究综述 [J].
王来华 ;
刘毅 ;
不详 .
天津大学学报(社会科学版) , 2005, (04) :309-313
[9]
影响民众舆情的中介性社会事项 [J].
毕宏音 .
广西社会科学, 2004, (11) :157-159
[10]
对舆情、民意和舆论三概念异同的初步辨析 [J].
王来华 ;
林竹 ;
毕宏音 .
新视野, 2004, (05) :64-66