基于网络信息文本倾向性分析的领域应用研究

被引:0
作者
俞飞
机构
[1] 华东师范大学
关键词
网络信息; 文本倾向性; 情感分类; 语义倾向;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
随着计算机和互联网技术的迅猛发展,网络已经成为人们获取信息的不可或缺的重要来源。自互联网进入Web2.0时代以来,网民越来越习惯将网络作为自己表达观点、想法、态度的平台,而不只是被动的接受网站所发布的信息。由于大量的用户参与到信息的产生,网络信息的内容形式也变得越来越多样化,大量的具有个人观点性的内容充斥着网络。而这些观点对于电子商务、网络信息安全、网络舆情等方面具有非常重要的意义。文本倾向性分析是指通过采集、组织和分析这些文本中的市场、观点、看法、态度、情绪等主观信息,从而对文本的情感倾向做出褒贬判断。这一技术可以广泛的应用于商品评论分析、微博态度分析、社会舆情分析、问答分析与评价等多个方面。 本论文以互联网信息中的评论文本为研究基础,利用信息采集、文本处理技术、借助于数据挖掘、计算语言学等领域的理论与方法,以领域应用为研究对象,开展文本倾向性的建模、分析与计算研究,探索文本倾向性分析的新技术与新方法,将其应用于特定领域,并取得良好的效果。本文主要包括以下几个方面: 首先,本文介绍了文本倾向性分析的研究背景及意义,国内外研究现状,并阐述了网络信息文本倾向性分析的流程及其中的关键技术。 其次系统的介绍了文本分类的相关知识,并研究分析了基于统计和基于语义两种文本倾向性分析的办法,并对这两种主要的文本倾向性分析办法进行优缺点总结。 然后在此基础上提出了基于模式抽取和匹配基础上的文本分类算法,并使用两个公开的语料库:中文情感评测语料COAE以及中文情感挖掘语料ChnSentiCorp对算法进行测评,该算法在保持较高性能的同时获得了一个比较理想的准确率。 接着对提出的算法进行技术实现并通过对当当网的图书评论、新浪微博利比亚事件、新浪博客利比亚事件、外交部例行记者会实录问答数据进行文本倾向性分析,挖掘出评论内容的长短与情感倾向之间的关系,以及随着时间的变化网民对同一个事件的态度转变。 最后,对本文的研究工作进行总结,提出了今后进一步的研究方向。
引用
收藏
页数:65
共 12 条
[1]
基于聚类的网络舆情热点发现及分析 [J].
王伟 ;
许鑫 .
现代图书情报技术, 2009, (03) :74-79
[2]
互联网舆情分析及应用研究 [J].
许鑫 ;
章成志 .
情报科学 , 2008, (08) :1194-1200+1204
[3]
基于层叠CRFs模型的句子褒贬度分析研究 [J].
刘康 ;
赵军 .
中文信息学报, 2008, (01) :123-128
[4]
褒义词词典.[M].史继林;朱英贵编著;.四川辞书出版社.2005,
[5]
贬义词词典.[M].杨玲;朱英贵编著;.四川辞书出版社.2005,
[6]
学生褒贬义词典.[M].张伟; 刘缙; 郭先玲; 编.中国大百科全书出版社.2003,
[7]
基于Web的评论文本情感分类问题研究 [D]. 
王素格 .
上海大学,
2008
[8]
互联网主题信息定向采集研究 [D]. 
黄仲清 .
华东师范大学,
2010
[9]
基于语义技术的中文信息情感分析方法研究 [D]. 
林斌 .
哈尔滨工业大学,
2006
[10]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11