基于MapReduce的微博文本采集平台

被引:7
作者
于留宝
胡长军
苏林晗
机构
[1] 北京科技大学计算机与通信工程学院
关键词
Hadoop; MapReduce; 微博; 数据采集; Sina;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
微博不仅数据量大,而且实时性高,采用传统的Web文本爬取方式,很难在短时间内获取足量的微博。为了解决研究微博数据面临的数据采集问题,提出了基于MapReduce的微博数据采集平台,将整个微博抓取系统部署在hadoop平台上,充分利用hadoop分布式框架的特点,实现多节点同时抓取微博,很大程度上提高了抓取速率;并就微博采集过程中因输入数据过小导致hadoop不能有效均衡负载的问题,提出了采用多个小文件的输入方式,有效地解决了负载不均衡的问题。最后以Sina微博为例进行结,结果表明,该系统成本低、扩展性好、效率高,可广泛应用于基于微博数据的舆情分析以及传播学和虚拟社会学等方面的研究,并作为其基础数据采集平台。
引用
收藏
页码:143 / 145
页数:3
相关论文
共 2 条
[1]
一种分布式微博数据采集平台的设计与实现 [J].
李龙 ;
李芝棠 ;
涂浩 ;
史春永 .
广西大学学报(自然科学版), 2011, 36(S1) (自然科学版) :324-328
[2]
新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305