基于Hadoop生态系统的大数据解决方案综述

被引:121
作者
陈吉荣
乐嘉锦
机构
[1] 东华大学算机科学与技术学院
关键词
大数据; Hadoop生态系统; MapReduce; HDFS; 列存储数据库;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题。对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点。可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案。
引用
收藏
页码:25 / 35
页数:11
相关论文
共 7 条
[1]   一种Hadoop小文件存储和读取的方法 [J].
张春明 ;
芮建武 ;
何婷婷 .
计算机应用与软件, 2012, 29 (11) :95-100
[2]   基于MapReduce集群的加权公平队列调度算法研究 [J].
开华东 ;
田琪 .
电脑知识与技术, 2011, 7 (09) :2129-2132
[3]   异构环境下自适应的Map-Reduce调度 [J].
陈全 ;
邓倩妮 .
计算机工程与科学, 2009, 31(S1) (S1) :168-171+175
[4]  
基于HDFS的小文件处理与相关MapReduce计算模型性能的优化与改进.[D].蔡睿诚.吉林大学.2012, 09
[5]  
基于HDFS的多用户并行文件IO的设计与实现.[D].金松昌.国防科学技术大学.2010, 02
[6]  
高可用性的HDFS.[M].文艾; 王磊; 编著.清华大学出版社.2012,
[7]  
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.东南大学出版社.2011,