学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Scrapy的GitHub数据爬虫
被引:17
作者
:
论文数:
引用数:
h-index:
机构:
赵本本
[
1
]
论文数:
引用数:
h-index:
机构:
殷旭东
[
1
]
王伟
论文数:
0
引用数:
0
h-index:
0
机构:
苏州市浪潮电子信息有限公司
常熟理工学院计算机科学与工程学院
王伟
[
2
]
机构
:
[1]
常熟理工学院计算机科学与工程学院
[2]
苏州市浪潮电子信息有限公司
来源
:
电子技术与软件工程
|
2016年
/ 06期
关键词
:
网络爬虫;
数据爬取;
Scrapy;
GitHub;
Python;
NoSQL;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。
引用
收藏
页码:199 / 202
页数:4
相关论文
共 3 条
[1]
大数据时代下爬虫技术的兴起
论文数:
引用数:
h-index:
机构:
黄聪
李格人
论文数:
0
引用数:
0
h-index:
0
机构:
沈空指挥自动化工作站
广东工业大学管理学院
李格人
论文数:
引用数:
h-index:
机构:
罗楚
[J].
计算机光盘软件与应用,
2013,
16
(17)
: 79
-
80+83
[2]
大数据时代的机遇与挑战
邬贺铨
论文数:
0
引用数:
0
h-index:
0
机构:
中国工程院
邬贺铨
[J].
中国经贸,
2013,
(06)
: 16
-
19
[3]
分布式书籍网络爬虫系统的设计与实现.[D].赵鹏程.西南交通大学.2014, 09
←
1
→
共 3 条
[1]
大数据时代下爬虫技术的兴起
论文数:
引用数:
h-index:
机构:
黄聪
李格人
论文数:
0
引用数:
0
h-index:
0
机构:
沈空指挥自动化工作站
广东工业大学管理学院
李格人
论文数:
引用数:
h-index:
机构:
罗楚
[J].
计算机光盘软件与应用,
2013,
16
(17)
: 79
-
80+83
[2]
大数据时代的机遇与挑战
邬贺铨
论文数:
0
引用数:
0
h-index:
0
机构:
中国工程院
邬贺铨
[J].
中国经贸,
2013,
(06)
: 16
-
19
[3]
分布式书籍网络爬虫系统的设计与实现.[D].赵鹏程.西南交通大学.2014, 09
←
1
→