面向MapReduce的数据处理流程开发方法

被引:12
作者
易小华 [1 ,2 ]
刘杰 [3 ]
叶丹 [1 ]
机构
[1] 中国科学院软件研究所软件工程技术中心
[2] 中国科学院研究生院
[3] 中国科学技术大学计算机科学与技术系
关键词
MapReduce; 数据处理流程; 模型驱动; Hadoop平台;
D O I
暂无
中图分类号
TP311.52 [];
学科分类号
摘要
数据处理流程在信息爆炸的今天被广泛应用并呈现出海量和并行的特点,MapReduce编程模型的简单性和高性价比使得其适用于海量数据的并行处理,但是MapReduce不支持多数据源的数据处理,不能直接应用于具有多个处理操作、多个数据流分支的数据处理流程。提出一种模型驱动的面向MapReduce计算模型的数据处理流程快速开发方法,定义数据处理流程的逻辑模型、物理模型和组件模型,使用模型转换算法和代码生成算法将逻辑模型转化为物理模型,再转换为能直接在Hadoop平台上运行的MapReduce程序,基于该方法实现了一个开发工具CloudDataFlow。实验表明该方法可以有效提高数据流程的处理效率。
引用
收藏
页码:161 / 169
页数:9
相关论文
共 5 条
  • [1] 云计算及其关键技术
    陈全
    邓倩妮
    [J]. 计算机应用, 2009, 29 (09) : 2562 - 2567
  • [2] 云计算:系统实例与研究现状[J]. 陈康,郑纬民.软件学报. 2009(05)
  • [3] MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2008 (1)
  • [4] Interpreting the data: Parallel analysis with Sawzall[J] . Carlos A. Varela,Paolo Ciancarini,Kenjiro Taura,Rob Pike,Sean Dorward,Robert Griesemer,Sean Quinlan.Scientific Programming . 2005 (4)
  • [5] Model-driven engineering. Schmidt D C. IEEE Computer . 2006