MapReduce大数据处理平台与算法研究进展

被引:101
作者
宋杰 [1 ]
孙宗哲 [1 ]
毛克明 [1 ]
鲍玉斌 [2 ]
于戈 [2 ]
机构
[1] 东北大学软件学院
[2] 不详
关键词
大数据; MapReduce; 外存算法; 大数据处理; 算法性能优化;
D O I
10.13328/j.cnki.jos.005169
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法,将这些算法按照MapReduce实现方式分类,分析影响算法性能的因素;最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和问题,以供研究人员参考.具体包括优化外存算法的磁盘I/O、优化外存算法的局部性以及设计增量式迭代算法.现有的大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,所提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间.
引用
收藏
页码:514 / 543
页数:30
相关论文
共 30 条
  • [1] 数据质量多种性质的关联关系研究
    丁小欧
    王宏志
    张笑影
    李建中
    高宏
    [J]. 软件学报, 2016, 27 (07) : 1626 - 1644
  • [2] 一种优化MapReduce系统能耗的数据布局算法
    宋杰
    王智
    李甜甜
    于戈
    [J]. 软件学报, 2015, 26 (08) : 2091 - 2110
  • [3] 基于任务合并的并行大数据清洗过程优化
    杨东华
    李宁宁
    王宏志
    李建中
    高宏
    [J]. 计算机学报, 2016, 39 (01) : 97 - 108
  • [4] 增量式迭代计算模型研究与实现
    宋杰
    郭朝鹏
    张一川
    张岩峰
    于戈
    [J]. 计算机学报, 2016, 39 (01) : 109 - 125
  • [5] MapReduce连接查询的I/O代价研究
    宋杰
    李甜甜
    朱志良
    鲍玉斌
    于戈
    [J]. 软件学报, 2015, 26 (06) : 1438 - 1456
  • [6] 一种云环境下的大数据Top-K查询方法
    慈祥
    马友忠
    孟小峰
    [J]. 软件学报, 2014, 25 (04) : 813 - 825
  • [7] 不确定性Top-K查询处理
    李文凤
    彭智勇
    李德毅
    [J]. 软件学报, 2012, 23 (06) : 1542 - 1560
  • [8] 基于Map-Reduce的海量数据高效Skyline查询处理
    丁琳琳
    信俊昌
    王国仁
    黄山
    [J]. 计算机学报, 2011, 34 (10) : 1785 - 1796
  • [9] 云计算环境下的大规模图数据处理技术
    于戈
    谷峪
    鲍玉斌
    王志刚
    [J]. 计算机学报, 2011, 34 (10) : 1753 - 1767
  • [10] 海量数据上的近似连接聚集操作
    韩希先
    杨东华
    李建中
    [J]. 计算机学报, 2010, 33 (10) : 1919 - 1933