基于Linux的python多线程爬虫程序设计

被引:18
作者
李俊丽
机构
[1] 晋中学院信息技术与工程学院
关键词
微博网页; 网络爬虫; 模拟登录;
D O I
暂无
中图分类号
TP393.092 []; TP391.3 [检索机];
学科分类号
摘要
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。
引用
收藏
页码:861 / 863+876 +876
页数:4
相关论文
共 8 条