分布式流处理技术综述

被引:49
作者
崔星灿
禹晓辉
刘洋
吕朝阳
机构
[1] 山东大学计算机科学与技术学院
关键词
大数据; 数据流; 分布式流处理; 实时处理; 分布式系统;
D O I
暂无
中图分类号
TP274 [数据处理、数据处理系统];
学科分类号
0804 ; 080401 ; 080402 ; 081002 ; 0835 ;
摘要
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求.由于此类需求往往超出传统数据处理技术的能力,分布式流处理模式应运而生.首先回顾分布式流处理技术产生的背景以及技术演进过程,然后将其与其他相关大数据处理技术进行对比,以界定分布式流数据处理的外延.进而对分布式流处理所需要考虑的数据模型、系统模型、存储管理、语义保障、负载控制、系统容错等主要问题进行深入分析,指出现有解决方案的优势和不足.随后,介绍S4,Storm,Spark Streaming等几种具有代表性的分布式流处理系统,并对它们进行系统地对比.最后,给出分布式流处理在社交媒体处理等领域的几种典型应用,并探讨分布式流处理领域进一步的研究方向.
引用
收藏
页码:318 / 332
页数:15
相关论文
共 17 条
[1]   大数据流式计算:关键技术及系统实例 [J].
孙大为 ;
张广艳 ;
郑纬民 .
软件学报, 2014, 25 (04) :839-862
[2]   大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, 50 (01) :146-169
[3]   大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].
李国杰 ;
程学旗 .
中国科学院院刊, 2012, 27 (06) :647-657
[4]  
Spanner[J] . James C. Corbett,Jeffrey Dean,Michael Epstein,Andrew Fikes,Christopher Frost,J. J. Furman,Sanjay Ghemawat,Andrey Gubarev,Christopher Heiser,Peter Hochschild,Wilson Hsieh,Sebastian Kanthak,Eugene Kogan,Hongyi Li,Alexander Lloyd,Sergey Melnik,David Mwaura,David Nagle,Sean Quinlan,Rajesh Rao,Lindsay Rolig,Yasushi Saito,Michal Szymaniak,Christopher Taylor,Ruth Wang,Dale Woodford.ACM Transactions on Computer Systems (TOCS) . 2013 (3)
[5]   The 8 requirements of real-time stream processing [J].
Stonebraker, M ;
Çetintemel, U ;
Zdonik, S .
SIGMOD RECORD, 2005, 34 (04) :42-47
[6]  
The CQL continuous query language: semantic foundations and query execution[J] . Arvind Arasu,Shivnath Babu,Jennifer Widom.The VLDB Journal . 2006 (2)
[7]  
Aurora: a new model and architecture for data stream management[J] . The VLDB Journal . 2003 (2)
[8]   Issues in data stream management [J].
Golab, L ;
Özsu, MT .
SIGMOD RECORD, 2003, 32 (02) :5-14
[9]   Active database systems [J].
Paton, NW ;
Díaz, O .
ACM COMPUTING SURVEYS, 1999, 31 (01) :63-103
[10]   A survey of stream processing [J].
Stephens, R .
ACTA INFORMATICA, 1997, 34 (07) :491-541