MapReduce模型在Hadoop中的性能优化及改进

被引:0
作者
何荣波
机构
[1] 北京化工大学
关键词
分布式计算; Hadoop; HDFS; MapReduce;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
如今的互联网是一个数据爆炸的时代,人们的工作、生活、娱乐都与网络紧紧联系在一起,使得网络上数据规模急剧增加,应用类型极大丰富。那些看似空洞混乱的数据,其中其实蕴藏着巨大的商机,作为企业或组织,未来的成功在很大程度上取决于它是否能从数据中提取出价值。随之而来的问题是单机的数据处理能力无法满足当今海量数据应用的处理要求,基于大规模计算机集群的分布式计算成为未来数据处理性能提升的主要途径。 Hadoop因其可靠的稳定性、高效的分布式并行处理能力、易扩展和开源的性质,在短短3年里就成为主流的开源云计算平台。但是Hadoop发展时间毕竟还比较短,在很多地方仍然不够完善,有改进的必要。本文对Hadoop的核心技术之一MapReduce计算模型进行了深入的分析研究,针对MapReduce在对Map输出的中间临时数据的管理和控制上的不足,做了一些优化和改进工作,旨在解决程序运行中由于中间数据量的超大规模和数据分布的不均衡而产生的性能瓶颈,提升程序运行性能,优化资源的合理利用。 Hadoop因其可靠的稳定性、高效的分布式并行处理能力、易扩展和开源的性质,在短短3年里就成为主流的开源云计算平台。但是Hadoop发展时间毕竟还比较短,在很多地方仍然不够完善,有改进的必要。本文对Hadoop的核心技术之一MapReduce计算模型进行了深入的分析研究,针对MapReduce在对Map输出的中间临时数据的管理和控制上的不足,做了一些优化和改进工作,旨在解决程序运行中由于中间数据量的超大规模和数据分布的不均衡而产生的性能瓶颈,提升程序运行性能,优化资源的合理利用。
引用
收藏
页数:76
共 15 条
[1]
Hadoop的中国前途.[N].刘洪宇;.中国计算机报.2009,
[2]
一种多用户MapReduce集群的作业调度算法的设计与实现 [J].
王凯 ;
吴泉源 ;
杨树强 .
计算机与现代化, 2010, (10) :23-28
[3]
云计算创新,让生活更精彩 [J].
张为民 .
中兴通讯技术, 2010, 16 (04) :28-32
[4]
Hadoop平台的性能优化研究 [J].
栾亚建 ;
黄翀民 ;
龚高晟 ;
赵铁柱 .
计算机工程, 2010, 36 (14) :262-263+266
[5]
云计算步入预热期 软件业迎来新增长 [J].
谢岚旭 .
上海信息化, 2010, (03) :42-43
[6]
基于MapReduce模型的并行科学计算 [J].
郑启龙 ;
房明 ;
汪胜 ;
王向前 ;
吴晓伟 ;
王昊 .
微电子学与计算机, 2009, 26 (08) :13-17
[7]
一种改进的MapReduce并行编程模型 [J].
周锋 ;
李旭伟 .
科协论坛(下半月), 2009, (02) :65-66
[8]
一个基于层次结构的DSM模型 [J].
李冀 ;
郭建新 ;
陈贵海 ;
谢立 .
计算机科学, 2001, (01) :39-44
[9]
Hadoop平台下的作业调度算法研究与改进 [D]. 
夏祎 .
华南理工大学,
2010
[10]
Hadoop的重复数据清理模型研究与实现 [D]. 
曾理 .
南华大学,
2010