基于Python的新浪微博数据爬虫

被引:59
作者
周中华
张惠然
谢江
机构
[1] 上海大学计算机工程与科学学院
基金
高等学校博士学科点专项科研基金;
关键词
新浪微博; 爬虫; Python; 并行; 大数据;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。
引用
收藏
页码:3131 / 3134
页数:4
相关论文
共 7 条
[1]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[2]  
Weibo network, information diffusion and implications for collective action in China[J] . Ronggui Huang,Xiaoyi Sun.Information, Communication & Society . 2014 (1)
[3]   Will the real Weibo please stand up? Chinese online contention and actor-network theory [J].
Poell, Thomas ;
de Kloet, Jeroen ;
Zeng, Guohua .
CHINESE JOURNAL OF COMMUNICATION, 2014, 7 (01) :1-18
[4]  
Gemeinsam lernen auf Facebook & Co.?[J] . Nicole Str?fling,Nicole C. Kr?mer.Gruppendynamik und Organisationsberatung . 2013 (4)
[5]   Book Reviews [J].
Sharad Thora ;
Anup Mohta ;
Siddarth Ramji ;
A. K. Patwari ;
Jeeson C. Unni .
Indian Pediatrics, 2013, 50 (6) :624-625
[6]  
Young Bilinguals' Language Behaviour in Social Networking Sites: The Use of Welsh on Facebook[J] . Daniel Cunliffe,Delyth Morris,Cynog Prys.J Comput‐Mediat Comm . 2013 (3)
[7]  
An architecture for a focused trend parallel Web crawler with the application of clickstream analysis[J] . Fatemeh Ahmadi-Abkenari,Ali Selamat.Information Sciences . 2011 (1)