互联网舆情信息获取与分析研究

被引:0
作者
金晓鸥
机构
[1] 上海交通大学
关键词
网页采集; 文本倾向性分析; 动态网页;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
本文对互联网舆情信息的获取和分析做了较深入的讨论。利用Rhino脚本解析引擎,有效地解决了互联网中JavaScript动态网页的获取问题。同时,结合基于向量空间的文本分类方法和基于语义的文本分类方法,对传统的文本倾向性分析进行改进,有效地提高了准确率和普适性。 本文首先讨论了JavaScript动态网页的获取,回顾了网页获取领域的已有成果,列举了网页获取领域的基本知识,包括HTML语言、HTTP协议以及URL统一资源定位符等基本概念,以及动态网页方面的相关知识。同时指出了,随着网页技术的快速发展,网页获取技术需要做相应的改进。 在回顾网页获取领域已有成果的基础上,本文针对其中的链接获取机制做了详细的说明。尽管传统的网页获取技术可以利用HTML语言的一些特点,提取出网页中包含的链接地址,然而由于网页技术的发展,越来越多的网页将链接地址隐藏在网页脚本中。鉴于此,本文通过认真分析,认为需要在网页获取技术中增加脚本解析环节。通过本文的测试验证,证明了增加脚本解析环节后,可以有效地提高网页的获取率。 接着,本文还讨论了网页文本倾向性问题的研究,回顾了文本分类领域的已有成果,列举了文本分类领域中的几个重要知识,包括文本分词,文本表示,特征选择,以及分类方法。指出了随着技术的发展,文本倾向性分析将是文本分类的一个重要发展方向。 在回顾文本分类领域已有成果的基础上,本文针对其中的分类方法做了详细说明。尽管现有的分类技术可以有效地将文本分为体育、娱乐、政治等类别,但是还不能有效地根据文本作者想表达的情感特征进行分类。本文通过认真分析,认为在基于向量空间模型的分类方法中可以适当地借鉴基于语义的分类方法中的权重设置方法。通过本文的测试验证,本文提出的综合的方法,可以有效地对文本进行倾向性分类。
引用
收藏
页数:78
共 23 条
[1]
自由文本的信息抽取模式获取的研究 [D]. 
姜吉发 .
中国科学院研究生院(计算技术研究所),
2004
[2]
Web信息智能获取若干关键问题研究 [D]. 
贾自艳 .
中国科学院研究生院(计算技术研究所),
2004
[3]
基于网页挖掘的搜索引擎若干技术的研究 [D]. 
黄永光 .
哈尔滨工业大学,
2006
[4]
分布式网络爬虫技术的研究与实现 [D]. 
苏旋 .
哈尔滨工业大学,
2006
[5]
中文网页褒贬倾向性分类研究 [D]. 
熊德兰 .
郑州大学,
2006
[6]
基于BBS文本信息的中文自动分词系统的研究 [D]. 
何淑芳 .
中国海洋大学,
2006
[7]
基于主动学习的中文文本分类 [D]. 
孙国欣 .
兰州大学,
2006
[8]
基于Web内容挖掘的网页分类与过滤研究与应用 [D]. 
彭希鸿 .
中南大学,
2003
[9]
中文文本自动分类的研究与实现 [D]. 
都云琪 .
西安电子科技大学,
2002
[10]
基于向量空间模型的自反馈的文本分类系统的研究与实现 [D]. 
庞剑锋 .
中国科学院研究生院(计算技术研究所),
2001