基于Hadoop的广域网分布式主题爬虫系统框架

被引：5

作者：

王淑芬 ^{[1
]}

高军礼 ^{[1
]}

邹普 ^{[1
]}

宋海涛 ^{[2
]}

机构：

[1] 广东工业大学自动化学院

[2] 华南理工大学工商管理学院

来源：

计算机工程与科学 | 2015年 / 37卷 / 04期

基金：

国家自然科学基金重大项目;

关键词：

分布式爬虫; Hadoop; 爬虫框架; 模板匹配; 主题爬虫;

D O I：

暂无

中图分类号：

TP391.3 [检索机]; TP393.2 [广域网（WAN）];

学科分类号：

081203 ; 0835 ; 081201 ; 1201 ;

摘要：

广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。

引用

页码：670 / 675

页数：6

共 13 条

[1]

基于网页的信息抽取的研究.[D].陈晶.西安工业大学.2011,

[2]

Reprint of: Efficient crawling through URL ordering.[J].Junghoo Cho;Hector Garcia-Molina;Lawrence Page.Computer Networks.2010, 18

[3]

Reprint of: The anatomy of a large-scale hypertextual web search engine.[J].Sergey Brin;Lawrence Page.Computer Networks.2010, 18

[4] Improving the performance of focused web crawlers [J].