互联网舆情监控分析系统的研究与实现

被引:0
作者
刘德鹏
机构
[1] 电子科技大学
关键词
网络舆情; 监控分析; 热点识别; 文本倾向分析; 语义角色标注;
D O I
暂无
年度学位
2011
学位类型
硕士
摘要
随着互联网的高速发展,网络给人们提供了前所未有的开放、便捷的信息共享与发布平台,越来越多的人通过网络来表达自己的意见、想法、情绪和态度,其中既包括对对事件的发展有着正面、积极作用的信息,也包括一些负面、消极的信息。同时,网络平台的开放性、直接性和隐蔽性使得网络舆论越来越重要地影响人们的意识形态。因此,对大量舆情信息的及时有效监控分析,对维护社会稳定、促进国家发展具有重要的现实意义。 网络舆情监控系统与自然语言处理技术密切相关。受限于自然语言处理技术水平,传统的网络舆情监控系统,主要为话题识别的相关内容,而对舆情的情感因素关注较少。虽然也有学者对舆情情感意见信息挖掘进行了研究,但由于处理结果与语料相关性较高,导致实用性不足。 近年来,随着自然语言处理研究的逐步深入,浅层语义分析开始崭露头角,并在相关应用研究中体现出相对词性标注、句法分析更为智能实用的优势。浅层语义分析是一种简化了的语义分析形式,它利用动词对句意理解的关键作用,以动词为中心对句子意义的进行了形式化表示。语义角色标注作为一种浅层语义分析,对句子中一些成分为给定动词谓词的语义角色进行了标注,具有分析任务定义明确、便于评价等优点。 结合这种最新的自然语言处理技术,基于对现有舆情监控分析算法的对比分析,我们设计并实现了一个网络舆情监控分析系统,创新性的提出了:(1)一种新的结合HowNet中公开的计算词语语义相似性算法和基于字的倾向计算算法,并对现有话题识别与追踪技术进行优化整合;(2)通过对大量样本的统计分析,得到倾向性语言表现形态规律,具体表现为角色-特征性概率表和角色-情感性概率表,为后续分析提供客观数据基础。 本文包括的主要内容有: (1)舆情监控分析系统框架设计与模块设计。根据网络舆情信息的特点,提出系统总体框架,并对信息预处理模块、信息挖掘模块和信息服务模块进行了设计。 (2)舆情热点话题识别技术研究。对网络中一段时间内大量出现的某个新闻主体进行提取追踪,通过对ICTCLAS分词技术、文档频率特征抽取方法、TFIDF权重计算以及K均值聚类算法的有效整合,实现热点话题识别与追踪。 (3)舆情信息浅层语义分析研究。主要利用语义角色标注工具,通过训练测试,对文本语义层角色进行标注。 (4)舆情信息倾向分析研究。实现文本中意见、情感等信息的提取,主要包括情感词库建设、特征库建设、情感倾向计算算法研究以及语料知识发现等。 本文所涉工作在国内相关事件和分析中得到应用,可有效辅助舆情监控并减少人为干预,必将在未来的网络信息管理中发挥积极的效益。
引用
收藏
页数:87
共 21 条
[1]
基于SVMTool的中文词性标注 [J].
王丽杰 ;
车万翔 ;
刘挺 .
中文信息学报, 2009, 23 (04) :16-21
[2]
基于傅立叶变换的网页去重算法 [J].
陈锦言 ;
孙济洲 ;
张亚平 .
计算机应用, 2008, (04) :948-950
[3]
基于监督学习的中文情感分类技术比较研究 [J].
唐慧丰 ;
谭松波 ;
程学旗 .
中文信息学报, 2007, (06) :88-94+108
[4]
三种文档语义倾向性识别方法的分析与比较 [J].
马海兵 ;
刘永丹 ;
王兰成 ;
李荣陆 .
现代图书情报技术, 2007, (04) :43-47
[5]
基于最大熵分类器的语义角色标注 [J].
刘挺 ;
车万翔 ;
李生 .
软件学报, 2007, (03) :565-573
[6]
基于语义理解的文本倾向性识别机制 [J].
徐琳宏 ;
林鸿飞 ;
杨志豪 .
中文信息学报, 2007, (01) :96-100
[7]
基于HowNet的词汇语义倾向计算 [J].
朱嫣岚 ;
闵锦 ;
周雅倩 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2006, (01) :14-20
[8]
基于完全二阶隐马尔可夫模型的汉语词性标注 [J].
梁以敏 ;
黄德根 .
计算机工程, 2005, (10) :177-179
[9]
题元角色与题元角色理论 [J].
高明乐 .
现代外语, 2003, (02) :210-218
[10]
统计与规则并举的汉语词性自动标注算法 [J].
张民 ;
李生 ;
赵铁军 ;
张艳风 .
软件学报, 1998, (02)