共 11 条
基于开源生态系统的大数据平台研究
被引:18
作者:
雷军
[1
,2
]
叶航军
[2
]
武泽胜
[2
]
张鹏
[2
]
谢龙
[2
]
何炎祥
[1
,3
]
机构:
[1] 武汉大学计算机学院
[2] 小米科技有限责任公司
[3] 软件工程国家重点实验室(武汉大学)
来源:
关键词:
Hadoop;
开源生态系统;
大数据;
数据中心;
网络虚拟化;
D O I:
暂无
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
大规模数据的收集和处理是近年的研究热点,业界已经提出了若干平台级的设计方案,大量使用了开源软件作为数据收集和处理组件.然而,要真正满足企业应用中海量数据存储、多样化业务处理、跨业务分析、跨环境部署等复杂需求,尚需设计具有完整性、通用性、支持整个数据生命周期管理的大数据平台,并且对开源软件进行大量的功能开发、定制和改进.从小米公司的行业应用和实践出发,在深入研究现有平台的基础上,提出了一种新的基于开源生态系统的大数据收集与处理平台,在负载均衡、故障恢复、数据压缩、多维调度等方面进行了大量优化,同时发现并解决了现有开源软件在数据收集、存储、处理以及软件一致性、可用性和效率等方面的缺陷.该平台已经在小米公司成功部署,为小米公司各个业务线的数据收集和处理提供支撑服务.
引用
收藏
页码:80 / 93
页数:14
相关论文