多策略融合的微博数据获取技术研究

被引:3
作者
王培名 [1 ]
陈兴蜀 [1 ,2 ]
王海舟 [2 ]
王文贤 [3 ]
机构
[1] 四川大学计算机(软件)学院
[2] 四川大学网络空间安全学院
[3] 四川大学网络空间安全研究院
基金
中央高校基本科研业务费专项资金资助;
关键词
微博API; 模拟登录; 访客Cookie; 策略融合; 自适应; 代理池;
D O I
暂无
中图分类号
TP393.092 []; TP391.3 [检索机];
学科分类号
摘要
微博正逐步成为公共信息传播的主要社交媒体,高效地获取微博数据对于网络舆情分析具有重要意义。以新浪微博为研究对象,研究了通过微博API、模拟登录和构造访客Cookie进行数据采集的3种方案,提出了一种多策略融合的微博数据采集方案。针对模拟登录的方案设计实现了自适应的并发采集算法,使数据采集较为稳定高效;针对构造访客Cookie的方案设计实现了高可用代理池模块,进一步提高了数据采集效率。实验结果表明,基于模拟登录的自适应并发采集策略和构造访客Cookie融合的方案能够高效、全面、稳定地获取微博数据。
引用
收藏
页码:28 / 36+43 +43
页数:10
相关论文
共 18 条
[1]   基于用户影响力的微博数据采集技术 [J].
周雪 ;
刘乃文 .
山东师范大学学报(自然科学版), 2016, 31 (02) :34-39
[2]   基于众包的社交网络数据采集模型设计与实现 [J].
高梦超 ;
胡庆宝 ;
程耀东 ;
周旭 ;
李海波 ;
杜然 .
计算机工程, 2015, 41 (04) :36-40
[3]   一种基于模拟登录的微博数据采集方案 [J].
孙青云 ;
王俊峰 ;
赵宗渠 ;
高梦超 .
计算机技术与发展, 2014, 24 (03) :6-10
[4]   网页标题分析对主题爬虫的改进 [J].
袁浩 ;
黄烟波 .
计算机技术与发展, 2009, 19 (06) :22-24+28
[5]  
社会化网络数据获取技术研究与实现[D]. 徐恒.吉林大学 2016
[6]  
面向社交网络的数据采集系统的研究与实现[D]. 黄鑫博.北京邮电大学 2016
[7]  
面向微博的数据采集和分析系统的设计与实现[D]. 冯典.北京邮电大学 2013
[8]  
UbiCrawler: A scalable fully distributed Web crawler. Boldi, Paolo,Codenotti, Bruno,Santini, Massimo,Vigna, Sebastiano. Software - Practice and Experience . 2004
[9]  
Who says what to whom on twitter. Wu S,Hofman J M,Mason W A, et al. WWW’’11 . 2011
[10]  
Analysis of the increase and decrease algorithms for congestion avoidance in computer networks. Chiu D M,Jain R. Computer Networks . 1989