基于开源生态系统的大数据平台研究

被引:18
作者
雷军 [1 ,2 ]
叶航军 [2 ]
武泽胜 [2 ]
张鹏 [2 ]
谢龙 [2 ]
何炎祥 [1 ,3 ]
机构
[1] 武汉大学计算机学院
[2] 小米科技有限责任公司
[3] 软件工程国家重点实验室(武汉大学)
关键词
Hadoop; 开源生态系统; 大数据; 数据中心; 网络虚拟化;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
大规模数据的收集和处理是近年的研究热点,业界已经提出了若干平台级的设计方案,大量使用了开源软件作为数据收集和处理组件.然而,要真正满足企业应用中海量数据存储、多样化业务处理、跨业务分析、跨环境部署等复杂需求,尚需设计具有完整性、通用性、支持整个数据生命周期管理的大数据平台,并且对开源软件进行大量的功能开发、定制和改进.从小米公司的行业应用和实践出发,在深入研究现有平台的基础上,提出了一种新的基于开源生态系统的大数据收集与处理平台,在负载均衡、故障恢复、数据压缩、多维调度等方面进行了大量优化,同时发现并解决了现有开源软件在数据收集、存储、处理以及软件一致性、可用性和效率等方面的缺陷.该平台已经在小米公司成功部署,为小米公司各个业务线的数据收集和处理提供支撑服务.
引用
收藏
页码:80 / 93
页数:14
相关论文
共 11 条
[1]  
一种基于云计算的数据挖掘平台架构设计与实现.[D].纪俊.青岛大学.2009, 10
[2]  
基于MapReduce模型的并行计算平台的设计与实现.[D].万至臻.浙江大学.2008, 07
[3]  
基于Hadoop的海量数据处理模型研究和应用.[D].朱珠.北京邮电大学.2008, 11
[4]  
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[5]  
Interpreting the data: Parallel analysis with Sawzall.[J].Carlos A. Varela;Paolo Ciancarini;Kenjiro Taura;Rob Pike;Sean Dorward;Robert Griesemer;Sean Quinlan.Scientific Programming.2005, 4
[6]   基于云平台的软件服务流体系结构 [J].
董贺 ;
徐凌宇 .
上海大学学报(自然科学版), 2013, 19 (01) :14-20
[7]   基于Hadoop的海量数据存储平台设计与开发 [J].
崔杰 ;
李陶深 ;
兰红星 .
计算机研究与发展, 2012, 49(S1) (S1) :12-18
[8]   基于Hadoop的Web日志预处理的设计与实现 [J].
宋莹 ;
沈奇威 ;
王晶 .
电信工程技术与标准化, 2011, 24 (11) :84-89
[9]   基于Hadoop/Hive的web日志分析系统的设计 [J].
刘永增 ;
张晓景 ;
李先毅 .
广西大学学报(自然科学版), 2011, (S1) :314-317
[10]   基于Hadoop云计算模型探究 [J].
李珺 .
信息安全与技术, 2011, (06) :30-32+37