基于Hadoop的广域网分布式主题爬虫系统框架

被引:5
作者
王淑芬 [1 ]
高军礼 [1 ]
邹普 [1 ]
宋海涛 [2 ]
机构
[1] 广东工业大学自动化学院
[2] 华南理工大学工商管理学院
基金
国家自然科学基金重大项目;
关键词
分布式爬虫; Hadoop; 爬虫框架; 模板匹配; 主题爬虫;
D O I
暂无
中图分类号
TP391.3 [检索机]; TP393.2 [广域网(WAN)];
学科分类号
081203 ; 0835 ; 081201 ; 1201 ;
摘要
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。
引用
收藏
页码:670 / 675
页数:6
相关论文
共 13 条
[1]  
基于网页的信息抽取的研究.[D].陈晶.西安工业大学.2011,
[2]  
Reprint of: Efficient crawling through URL ordering.[J].Junghoo Cho;Hector Garcia-Molina;Lawrence Page.Computer Networks.2010, 18
[3]  
Reprint of: The anatomy of a large-scale hypertextual web search engine.[J].Sergey Brin;Lawrence Page.Computer Networks.2010, 18
[4]   Improving the performance of focused web crawlers [J].
Batsakis, Sotiris ;
Petrakis, Euripides G. M. ;
Milios, Evangelos .
DATA & KNOWLEDGE ENGINEERING, 2009, 68 (10) :1001-1013
[5]  
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[6]   Mercator: A scalable, extensible Web crawler [J].
Heydon A. ;
Najork M. .
World Wide Web, 1999, 2 (4) :219-229
[7]   主题爬虫相关度算法研究综述 [J].
王帅 ;
周国民 ;
王健 .
计算机与现代化, 2013, (04) :27-30+39
[8]   高性能网络爬虫:研究综述 [J].
周德懋 ;
李舟军 .
计算机科学, 2009, 36 (08) :26-29+53
[9]   主题网络爬虫研究综述 [J].
刘金红 ;
陆余良 .
计算机应用研究, 2007, (10) :26-29+47
[10]   系统动力学方法:原理、特点与最新进展 [J].
许光清 ;
邹骥 .
哈尔滨工业大学学报(社会科学版), 2006, (04) :72-77