基于Scrapy的GitHub数据爬虫

被引：17

作者：

赵本本 ^{[1
]}

殷旭东 ^{[1
]}

王伟 ^{[2
]}

机构：

[1] 常熟理工学院计算机科学与工程学院

[2] 苏州市浪潮电子信息有限公司

来源：

关键词：

网络爬虫; 数据爬取; Scrapy; GitHub; Python; NoSQL;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。

引用

页码：199 / 202

页数：4