大数据时代下基于Python的网络信息爬取技术

被引:24
作者
刘顺程
岳思颖
机构
[1] 重庆邮电大学软件工程学院
关键词
网络爬虫; Python; 大数据;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
在大数据时代下,各行各业都需要大量数据的支持,如果所有数据都经过人工搜索、分析、提炼,则会大大增加工作难度。基于Python的网络信息爬取技术可以自动完成网络数据的收集、解析、格式化存储,从而提升工作效率。本文以网络信息爬取技术为研究重点,分别介绍网络爬虫的基础架构与运行流程,以及基于Python的网络爬取技术实现。
引用
收藏
页数:1
相关论文
共 2 条
[1]
基于DOM的网页主题信息自动提取 [J].
王琦 ;
唐世渭 ;
杨冬青 ;
王腾蛟 .
计算机研究与发展, 2004, (10) :1786-1792
[2]
自己动手写网络爬虫[M] 罗刚; 王振东; 编著 清华大学出版社 2010,