MapReduce集群环境下的数据放置策略

被引:49
作者
荀亚玲 [1 ]
张继福 [1 ]
秦啸 [2 ]
机构
[1] 太原科技大学计算机科学与技术学院
[2] Department of Computer Science and Software Engineering,Auburn University
关键词
数据放置; MapReduce; 编程模型; 能耗; 负载均衡;
D O I
暂无
中图分类号
TP311.1 [程序设计];
学科分类号
081205 [计算机软件];
摘要
MapReduce是一种适用于大规模数据密集型应用的有效编程模型,具有编程简单、易于扩展、容错性好等特点,已在并行和分布式计算领域得到了广泛且成功的应用.由于MapReduce将计算扩展到大规模的机器集群上,处理数据的合理放置成为影响MapReduce集群系统性能(包括能耗、资源利用率、通信和I/O代价、响应时间、系统的可靠性和吞吐率等)的关键因素之一.首先,对MapReduce编程模型的典型实现——Hadoop缺省的数据放置策略进行分析,并进一步讨论了MapReduce框架下,设计数据放置策略时需考虑的关键问题和衡量数据放置策略的标准;其次,对目前MapReduce集群环境下的数据放置策略优化方法的研究与进展进行了综述和分析;最后,分析和归纳了MapReduce集群环境下数据放置策略的下一步研究工作.
引用
收藏
页码:2056 / 2073
页数:18
相关论文
共 23 条
[1]
基于分布式文件系统HDFS的节能算法 [J].
廖彬 ;
于炯 ;
张陶 ;
杨兴耀 .
计算机学报, 2013, 36 (05) :1047-1064
[2]
一种云环境下的绿色计算模型 [J].
张桂刚 ;
李超 ;
邢春晓 .
小型微型计算机系统, 2013, 34 (05) :1016-1020
[3]
基于存储结构重配置的分布式存储系统节能算法 [J].
廖彬 ;
于炯 ;
孙华 ;
年梅 .
计算机研究与发展 , 2013, (01) :3-18
[4]
大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, (01) :146-169
[5]
Modeling a Dynamic Data Replication Strategy to Increase System Availability in Cloud Computing Environments[J] 孙大为;常桂然;高尚;靳立忠;王兴伟; Journal of Computer Science & Technology 2012, 02
[6]
一种云计算环境下的能效模型和度量方法 [J].
宋杰 ;
李甜甜 ;
闫振兴 ;
那俊 ;
朱志良 .
软件学报, 2012, 23 (02) :200-214
[7]
云计算环境下的分布存储关键技术 [J].
王意洁 ;
孙伟东 ;
周松 ;
裴晓强 ;
李小勇 .
软件学报, 2012, 23 (04) :962-986
[8]
[9]
云环境下优化科学工作流执行性能的两阶段数据放置与任务调度策略 [J].
刘少伟 ;
孔令梅 ;
任开军 ;
宋君强 ;
邓科峰 ;
冷洪泽 .
计算机学报, 2011, 34 (11) :2121-2130
[10]
云计算环境下面向数据密集型应用的数据布局策略与方法 [J].
郑湃 ;
崔立真 ;
王海洋 ;
徐猛 .
计算机学报, 2010, 33 (08) :1472-1480