基于Scrapy的GitHub数据爬虫

被引:17
作者
赵本本 [1 ]
殷旭东 [1 ]
王伟 [2 ]
机构
[1] 常熟理工学院计算机科学与工程学院
[2] 苏州市浪潮电子信息有限公司
关键词
网络爬虫; 数据爬取; Scrapy; GitHub; Python; NoSQL;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。
引用
收藏
页码:199 / 202
页数:4
相关论文
共 3 条