基于Scrapy的深层网络爬虫研究

被引：27

作者：

刘宇 ^{[1
]}

郑成焕 ^{[2
]}

机构：

[1] 浙江大学

[2] 延边大学

来源：

软件 | 2017年 / 38 卷 / 07期

关键词：

深层网; 网络爬虫; Scrapy; Python;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的。但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍。传统的爬虫对表层网数据进行获取已经无法满足我们的需求,同时因为深层网数据通常没有各种复杂的标签结构等,使得其本身更加清晰,干净,故而我们深入研究深层网络爬虫是非常有必要的。本文将会通过Python的Scrapy爬虫框架,对深层网络爬虫进行研究,通过分析深层网络特点制定合适的Scrapy爬虫策略,最后通过实际操作,对指定的爬虫策略进行验证。

引用

页码：111 / 114

页数：4

共 14 条

[1] 基于Scrapy的GitHub数据爬虫
赵本本
殷旭东
王伟
[J]. 电子技术与软件工程, 2016, (06) : 199 - 202
[2] 网络爬虫技术的研究
孙立伟
何国辉
吴礼发
[J]. 电脑知识与技术, 2010, 6 (15) : 4112 - 4115
[3] 深层网中基于入口查询的表单填充策略
马建华
李赛红
徐兰兰
[J]. 计算机工程, 2010, 36 (07) : 66 - 67+70
[4] 深层网络信息资源的集成模式研究
石玉平
[J]. 情报杂志, 2010, 29 (03) : 157 - 161
[5] 深层网网络爬虫设计[J]. 陈丽君.计算机与信息技术. 2009(Z2)
[6] 深层网网络爬虫设计[J]. 陈丽君.计算机与信息技术. 2009 (Z2)
[7] 一种Deep Web爬虫的设计与实现
荣光
张化祥
[J]. 计算机与现代化, 2009, (03) : 31 - 34
[8] 深层网络爬虫研究综述
曾伟辉
李淼
曾伟辉
[J]. 计算机系统应用, 2008, (05) : 122 - 126
[9] Deep Web爬虫爬行策略研究
郑冬冬
崔志明
[J]. 计算机工程与设计, 2006, (17) : 3154 - 3158
[10] Deep Web爬虫研究与设计
郑冬冬
赵朋朋
崔志明
[J]. 清华大学学报(自然科学版), 2005, (S1) : 1896 - 1902

← 1 2 →