网络舆情数据获取与话题分析技术研究

被引:0
作者
王允
机构
[1] 解放军信息工程大学
关键词
网络舆情; 网络爬虫; Web信息抽取; 话题检测; 层次聚类; 数据立方体;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
网络舆情数据获取与话题分析是网络舆情态势分析与预警中的关键技术,已成为智能信息处理领域的研究热点。该技术从互联网上自动获取大量舆情数据,从中检测出网络舆情话题并借助数据立方体模型对其进行多角度、深层次的挖掘分析,客观地反映出网络舆情发展变化特点,对网络舆情信息监测和信息安全具有重要意义。本文主要研究网络舆情数据获取与话题分析技术,包括:网络舆情数据采集技术、网络舆情数据抽取技术、网络舆情话题检测技术和网络舆情话题分析技术。论文主要研究成果如下: (1)设计并实现了面向网络舆情数据采集的网络爬虫。一方面,分析了通用网络爬虫的不足,采用异步Socket、DNS缓存和多队列下载来改进其底层框架,提高了采集速度;另一方面,分析了网络舆情传播的主要途径,将重点锁定在论坛、博客、新闻这些网络文本,制定专用网络爬虫对目标站点进行分站式采集。各网络爬虫根据站点类型采用相应的采集策略以实现精确采集,并支持脚本执行、RSS解析。实验结果表明,通过两个方面的改进,本文设计的网络爬虫在有效性和效率上均优于通用的网络爬虫。 (2)通过分析论坛网页的布局结构特点,提出了一种基于网页布局相似度的Web论坛数据抽取方法。该方法采用分级处理的方式,先识别出主题信息块,再利用待抽取数据的统计规律,在主题信息块中完成网络舆情元数据抽取,不需要任何人工干预。实验结果表明,该方法对不同的论坛站点有较好的通用性,并且在准确率和召回率上均高于同类的自动抽取方法。 (3)针对目前话题检测中算法复杂度高、准确率低的问题,提出了一种基于层次聚类的舆情话题检测方法。该方法先对一定数量的文档进行层次聚类,得到若干话题,然后以此对后来的文档进行检测,并在适当的时候对未划分到任何话题的文档再进行层次聚类。该方法能检测出话题的层次性,同时运算速度快,可以达到准实时检测的要求。实验结果表明,相对于传统方法,本文方法在保证高准确率的同时,漏检率和错检率上都有所降低。 (4)通过详细分析网络舆情组成要素,利用数据仓库技术,建立网络舆情话题数据立方体模型。该模型涵盖了网络舆情的大部分组成要素,而且可以根据实际需要方便地进行扩展。实际案例分析表明,应用该模型可以对网络舆情话题进行多角度、深层次的挖掘分析,分析结果能比较客观地反映网络舆情变化发展的规律和趋势,有助于全面地了解网络舆情话题,并为网络舆情预警提供必要的信息。
引用
收藏
页数:66
共 35 条
[1]
Minimum projection uniformity criterion and its application.[J].Shangli Zhang;Hong Qin.Statistics and Probability Letters.2005, 6
[2]
Design and Implementation of On-Line Hot Topic Discovery Model [J].
YE Huimin CHENG Wei DAI Guanzhong School of Automatic Control Northwestern Polytechnical University Xian Shaanxi China Institute of Artificial Intelligence Beijing City University Beijing China .
WuhanUniversityJournalofNaturalSciences, 2006, (01) :21-26
[3]
A lower bound for the centered L2-discrepancy on asymmetric factorials and its application [J].
Chatterjee, Kashinath ;
Fang, Kai-Tai ;
Qin, Hong .
METRIKA, 2006, 63 (02) :243-255
[4]
<Emphasis Type="Italic">MySpiders</Emphasis>: Evolve Your Own Intelligent Web Crawlers.[J].Gautam Pant;Filippo Menczer.Autonomous Agents and Multi-Agent Systems.2002, 2
[5]
Learning information extraction rules for semi-structured and free text [J].
Soderland, S .
MACHINE LEARNING, 1999, 34 (1-3) :233-272
[6]
The anatomy of a large-scale hypertextual Web search engine.[J].Sergey Brin;Lawrence Page.Computer Networks and ISDN Systems.1998, 1
[7]
ON RELEVANCE, PROBABILISTIC INDEXING AND INFORMATION RETRIEVAL [J].
MARON, ME ;
KUHNS, JL .
JOURNAL OF THE ACM, 1960, 7 (03) :216-244
[8]
互联网多维层次式舆情指数若干计算方法的研究与实现 [D]. 
丁兆云 .
国防科学技术大学,
2008
[9]
BBS热点话题挖掘与观点分析 [D]. 
姚晓娜 .
大连海事大学,
2008
[10]
网络舆情热点发现的研究 [D]. 
杨梅 .
北京交通大学,
2008