如今的互联网是一个数据爆炸的时代,人们的工作、生活、娱乐都与网络紧紧联系在一起,使得网络上数据规模急剧增加,应用类型极大丰富。那些看似空洞混乱的数据,其中其实蕴藏着巨大的商机,作为企业或组织,未来的成功在很大程度上取决于它是否能从数据中提取出价值。随之而来的问题是单机的数据处理能力无法满足当今海量数据应用的处理要求,基于大规模计算机集群的分布式计算成为未来数据处理性能提升的主要途径。
Hadoop因其可靠的稳定性、高效的分布式并行处理能力、易扩展和开源的性质,在短短3年里就成为主流的开源云计算平台。但是Hadoop发展时间毕竟还比较短,在很多地方仍然不够完善,有改进的必要。本文对Hadoop的核心技术之一MapReduce计算模型进行了深入的分析研究,针对MapReduce在对Map输出的中间临时数据的管理和控制上的不足,做了一些优化和改进工作,旨在解决程序运行中由于中间数据量的超大规模和数据分布的不均衡而产生的性能瓶颈,提升程序运行性能,优化资源的合理利用。
Hadoop因其可靠的稳定性、高效的分布式并行处理能力、易扩展和开源的性质,在短短3年里就成为主流的开源云计算平台。但是Hadoop发展时间毕竟还比较短,在很多地方仍然不够完善,有改进的必要。本文对Hadoop的核心技术之一MapReduce计算模型进行了深入的分析研究,针对MapReduce在对Map输出的中间临时数据的管理和控制上的不足,做了一些优化和改进工作,旨在解决程序运行中由于中间数据量的超大规模和数据分布的不均衡而产生的性能瓶颈,提升程序运行性能,优化资源的合理利用。