学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Linux的python多线程爬虫程序设计
被引:18
作者
:
论文数:
引用数:
h-index:
机构:
李俊丽
机构
:
[1]
晋中学院信息技术与工程学院
来源
:
计算机与数字工程
|
2015年
/ 43卷
/ 05期
关键词
:
微博网页;
网络爬虫;
模拟登录;
D O I
:
暂无
中图分类号
:
TP393.092 [];
TP391.3 [检索机];
学科分类号
:
摘要
:
微博作为国内最受欢迎的社交平台,海量的微博数据必然包含丰富的知识资源。如何获取这些非结构化的数据,是进行微博数据挖掘的基础。根据微博网页的特点,提出了一种基于Linux的python多线程爬虫程序设计方法,通过模拟登录新浪微博,自动获取网页内容,再从网页内容中抽取微博和用户数据,以结构化的CSV数据格式存储或存入MySQL数据库,从而获取微博海量数据和用户信息。通过和基于开放API的爬虫程序进行比较,结果表明,从较长时间考虑,基于Linux的python多线程爬虫程序拥有更加优异的性能。
引用
收藏
页码:861 / 863+876 +876
页数:4
相关论文
共 8 条
[1]
RSA加密算法的有效实现及在云计算中的应用
谢会娟
论文数:
0
引用数:
0
h-index:
0
机构:
海南经贸职业技术学院
谢会娟
韩昌豪
论文数:
0
引用数:
0
h-index:
0
机构:
海南经贸职业技术学院
韩昌豪
吴明珠
论文数:
0
引用数:
0
h-index:
0
机构:
海南经贸职业技术学院
吴明珠
[J].
电脑知识与技术,
2014,
10
(14)
: 3263
-
3265
[2]
一种基于模拟登录的微博数据采集方案
论文数:
引用数:
h-index:
机构:
孙青云
论文数:
引用数:
h-index:
机构:
王俊峰
赵宗渠
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
四川大学计算机学院
赵宗渠
论文数:
引用数:
h-index:
机构:
高梦超
[J].
计算机技术与发展,
2014,
24
(03)
: 6
-
10
[3]
浅析大数据时代的数据挖掘与精细管理
韩英
论文数:
0
引用数:
0
h-index:
0
机构:
中北大学
晋中职业技术学院
中北大学
韩英
[J].
成都航空职业技术学院学报,
2013,
29
(04)
: 63
-
64+71
[4]
社区网络爬虫的设计与实现
论文数:
引用数:
h-index:
机构:
郭涛
论文数:
引用数:
h-index:
机构:
黄铭钧
[J].
智能计算机与应用,
2012,
2
(04)
: 65
-
67
[5]
基于MD5与Base64的混合加密算法
罗江华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学信息与网络管理中心
罗江华
[J].
计算机应用,
2012,
32(S1)
(S1)
: 47
-
49
[6]
新浪微博数据挖掘方案
论文数:
引用数:
h-index:
机构:
廉捷
周欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
周欣
曹伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
曹伟
论文数:
引用数:
h-index:
机构:
刘云
[J].
清华大学学报(自然科学版),
2011,
51
(10)
: 1300
-
1305
[7]
聚焦爬虫技术研究综述
论文数:
引用数:
h-index:
机构:
周立柱
论文数:
引用数:
h-index:
机构:
林玲
[J].
计算机应用,
2005,
(09)
: 1965
-
1969
[8]
分布式环境下基于文本的海量数据挖掘[D]. 柴化磊.上海交通大学. 2013
←
1
→
共 8 条
[1]
RSA加密算法的有效实现及在云计算中的应用
谢会娟
论文数:
0
引用数:
0
h-index:
0
机构:
海南经贸职业技术学院
谢会娟
韩昌豪
论文数:
0
引用数:
0
h-index:
0
机构:
海南经贸职业技术学院
韩昌豪
吴明珠
论文数:
0
引用数:
0
h-index:
0
机构:
海南经贸职业技术学院
吴明珠
[J].
电脑知识与技术,
2014,
10
(14)
: 3263
-
3265
[2]
一种基于模拟登录的微博数据采集方案
论文数:
引用数:
h-index:
机构:
孙青云
论文数:
引用数:
h-index:
机构:
王俊峰
赵宗渠
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
四川大学计算机学院
赵宗渠
论文数:
引用数:
h-index:
机构:
高梦超
[J].
计算机技术与发展,
2014,
24
(03)
: 6
-
10
[3]
浅析大数据时代的数据挖掘与精细管理
韩英
论文数:
0
引用数:
0
h-index:
0
机构:
中北大学
晋中职业技术学院
中北大学
韩英
[J].
成都航空职业技术学院学报,
2013,
29
(04)
: 63
-
64+71
[4]
社区网络爬虫的设计与实现
论文数:
引用数:
h-index:
机构:
郭涛
论文数:
引用数:
h-index:
机构:
黄铭钧
[J].
智能计算机与应用,
2012,
2
(04)
: 65
-
67
[5]
基于MD5与Base64的混合加密算法
罗江华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学信息与网络管理中心
罗江华
[J].
计算机应用,
2012,
32(S1)
(S1)
: 47
-
49
[6]
新浪微博数据挖掘方案
论文数:
引用数:
h-index:
机构:
廉捷
周欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
周欣
曹伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
曹伟
论文数:
引用数:
h-index:
机构:
刘云
[J].
清华大学学报(自然科学版),
2011,
51
(10)
: 1300
-
1305
[7]
聚焦爬虫技术研究综述
论文数:
引用数:
h-index:
机构:
周立柱
论文数:
引用数:
h-index:
机构:
林玲
[J].
计算机应用,
2005,
(09)
: 1965
-
1969
[8]
分布式环境下基于文本的海量数据挖掘[D]. 柴化磊.上海交通大学. 2013
←
1
→