基于Scrapy的深层网络爬虫研究

被引:27
作者
刘宇 [1 ]
郑成焕 [2 ]
机构
[1] 浙江大学
[2] 延边大学
关键词
深层网; 网络爬虫; Scrapy; Python;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的。但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍。传统的爬虫对表层网数据进行获取已经无法满足我们的需求,同时因为深层网数据通常没有各种复杂的标签结构等,使得其本身更加清晰,干净,故而我们深入研究深层网络爬虫是非常有必要的。本文将会通过Python的Scrapy爬虫框架,对深层网络爬虫进行研究,通过分析深层网络特点制定合适的Scrapy爬虫策略,最后通过实际操作,对指定的爬虫策略进行验证。
引用
收藏
页码:111 / 114
页数:4
相关论文
共 14 条