基于众包的社交网络数据采集模型设计与实现

被引:14
作者
高梦超 [1 ,2 ]
胡庆宝 [2 ]
程耀东 [2 ]
周旭 [3 ]
李海波 [2 ]
杜然 [2 ]
机构
[1] 四川大学计算机学院
[2] 中国科学院高能物理研究所计算中心
[3] 中国科学院声学研究所
关键词
社交网络; 众包模式; 分布式计算; 信息采集; Web爬虫; Hadoop分布式文件系统;
D O I
暂无
中图分类号
TP391.3 [检索机]; TP311.13 [];
学科分类号
1201 ;
摘要
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。
引用
收藏
页码:36 / 40
页数:5
相关论文
共 8 条
[1]  
面向领域的Deep Web信息抽取研究.[D].高原.南京信息工程大学.2013, 02
[2]  
基于社交网络的用户行为研究.[D].邓夏玮.北京交通大学.2012, 11
[3]   Cloud computing [J].
Hayes, Brian .
COMMUNICATIONS OF THE ACM, 2008, 51 (07) :9-11
[4]  
Bigtable.[J].Fay Chang;Jeffrey Dean;Sanjay Ghemawat;Wilson C. Hsieh;Deborah A. Wallach;Mike Burrows;Tushar Chandra;Andrew Fikes;Robert E. Gruber.ACM Transactions on Computer Systems (TOCS).2008, 2
[5]  
Hadoop技术内幕.[M].董西成; 著.机械工业出版社.2013,
[6]   新浪微博数据获取技术研究 [J].
黄延炜 ;
刘嘉勇 .
信息安全与通信保密, 2013, (06) :71-73+76
[7]   基于Hadoop的海量数据存储平台设计与开发 [J].
崔杰 ;
李陶深 ;
兰红星 .
计算机研究与发展 , 2012, (S1) :12-18
[8]   云计算:系统实例与研究现状 [J].
陈康 ;
郑纬民 .
软件学报, 2009, 20 (05) :1337-1348