大数据时代下爬虫技术的兴起

被引:8
作者
黄聪 [1 ]
李格人 [2 ]
罗楚 [1 ]
机构
[1] 广东工业大学管理学院
[2] 沈空指挥自动化工作站
关键词
大数据; 爬虫; scrapy; 歌词爬取;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
大数据时代下,人类社会的数据正以前所未有的速度增长。问卷调查法、访谈法等传统的数据收集方法,因样本容量小、信度低等局限已无法满足高质量研究的需求,相比较而言,编写爬虫程序获取到的海量数据更为真实、全面,在信息繁荣的互联网时代更为行之有效。因此编写爬虫程序成为大数据时代信息收集的必备技能。本文主要介绍爬虫原理、scrapy爬虫框架,并以歌词爬取为例,详细讲解使用scrapy爬取数据的步骤。
引用
收藏
页码:79 / 80+83 +83
页数:3
相关论文
共 5 条
  • [1] Data, data everywhere: A Special Report on Managing Information,The Economist. Cukier K. http://www.economist.com/node/15557443 . 2012
  • [2] The Age of Big Data. Steve Lohr. The New York Times . 2012
  • [3] Scrappy Tutorial. Scrappy developers. http://doc.scrapy.org/en/latest/intro/tutorial.html . 2013
  • [4] Architecture overview. Scrapy developers. http://doc.scrapy.org/en/latest/topics/architecture.html . 2013
  • [5] Big data:The next frontier for innovation,competition,and productivity[R/OL]. Manyika J,Chui M,Brown B,et al. http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation . 2012