基于Linux的python多线程爬虫程序设计

被引：18

作者：

李俊丽

机构：

[1] 晋中学院信息技术与工程学院

来源：

计算机与数字工程 | 2015年 / 43卷 / 05期

关键词：

微博网页; 网络爬虫; 模拟登录;

D O I：

暂无

中图分类号：

TP393.092 []; TP391.3 [检索机];

学科分类号：

摘要：

微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。

引用

页码：861 / 863+876 +876

页数：4

共 8 条

[1] RSA加密算法的有效实现及在云计算中的应用
谢会娟
韩昌豪
吴明珠
[J]. 电脑知识与技术, 2014, 10 (14) : 3263 - 3265
[2] 一种基于模拟登录的微博数据采集方案
孙青云
王俊峰
赵宗渠
高梦超
[J]. 计算机技术与发展, 2014, 24 (03) : 6 - 10
[3] 浅析大数据时代的数据挖掘与精细管理
韩英
[J]. 成都航空职业技术学院学报, 2013, 29 (04) : 63 - 64+71
[4] 社区网络爬虫的设计与实现
郭涛
黄铭钧
[J]. 智能计算机与应用, 2012, 2 (04) : 65 - 67
[5] 基于MD5与Base64的混合加密算法
罗江华
[J]. 计算机应用, 2012, 32(S1) (S1) : 47 - 49
[6] 新浪微博数据挖掘方案
廉捷
周欣
曹伟
刘云
[J]. 清华大学学报(自然科学版), 2011, 51 (10) : 1300 - 1305
[7] 聚焦爬虫技术研究综述
周立柱
林玲
[J]. 计算机应用, 2005, (09) : 1965 - 1969
[8] 分布式环境下基于文本的海量数据挖掘[D]. 柴化磊.上海交通大学. 2013

← 1 →