基于Python的Web数据采集技术

被引:30
作者
齐鹏
李隐峰
宋玉伟
机构
[1] 西安电子科技大学电子工程学院
关键词
Web数据抓取; 屏幕抓取; HTTP协议; Python; 正则表达式; XPath;
D O I
10.16180/j.cnki.issn1007-7820.2012.11.038
中图分类号
TP274.2 [];
学科分类号
0804 ; 080401 ; 080402 ; 081002 ; 0835 ;
摘要
针对Web数据采集技术进行了介绍,分析了Web数据采集技术在将非结构化数据转换为结构化数据方面的优势:速度快、准确性高。从HTTP协议层分析了Web数据抓取的原理,并重点介绍了如何实现基于Python的Web数据采集方案。Web数据采集系统可以分为:HTTP交互和数据解析两个模块。
引用
收藏
页码:118 / 120
页数:3
相关论文
共 5 条
[1]   基于XML的远程教育课件规范化的研究与实现 [J].
桂小林 ;
汪宁波 ;
李文 .
电子科技, 2010, 23 (06) :129-131
[2]   脚本语言在数据采集系统中的应用研究 [J].
刘红梅 .
电子科技, 2009, (11) :72-75
[3]  
Python基础教程.[M].(挪) 赫特兰 (Hetland;M.L.) ; 著.人民邮电出版社.2010,
[4]  
Python学习手册.[M].(美) 鲁特兹 (Lutz;M.) ; 著.机械工业出版社.2009,
[5]  
Python核心编程.[M].(美) 丘恩 (Chun;W.J.) ; 著.人民邮电出版社.2008,