大数据流式计算:关键技术及系统实例

被引:309
作者
孙大为 [1 ]
张广艳 [1 ,2 ]
郑纬民 [1 ]
机构
[1] 清华大学计算机科学与技术系
[2] 不详
关键词
大数据计算; 流式计算; 流式大数据; 内存计算; 系统实例;
D O I
10.13328/j.cnki.jos.004558
中图分类号
TP274 [数据处理、数据处理系统];
学科分类号
0804 ; 080401 ; 080402 ; 081002 ; 0835 ;
摘要
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
引用
收藏
页码:839 / 862
页数:24
相关论文
共 24 条
[1]   网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[2]   大数据的一个重要方面:数据可用性 [J].
李建中 ;
刘显敏 .
计算机研究与发展, 2013, 50 (06) :1147-1162
[3]   大数据背景下商务管理研究若干前沿课题 [J].
冯芷艳 ;
郭迅华 ;
曾大军 ;
陈煜波 ;
陈国青 .
管理科学学报, 2013, (01) :1-9
[4]   大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, 50 (01) :146-169
[5]   数据管理技术的新格局 [J].
覃雄派 ;
王会举 ;
李芙蓉 ;
李翠平 ;
陈红 ;
周烜 ;
杜小勇 ;
王珊 .
软件学报, 2013, 24 (02) :175-197
[6]   大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].
李国杰 ;
程学旗 .
中国科学院院刊, 2012, 27 (06) :647-657
[7]   针对高速数据流的大规模数据实时处理方法 [J].
亓开元 ;
赵卓峰 ;
房俊 ;
马强 .
计算机学报, 2012, 35 (03) :477-490
[8]   大数据分析——RDBMS与MapReduce的竞争与共生 [J].
覃雄派 ;
王会举 ;
杜小勇 ;
王珊 .
软件学报, 2012, 23 (01) :32-45
[9]   Analytical Performance Models for MapReduce Workloads [J].
Vianna, Emanuel ;
Comarela, Giovanni ;
Pontes, Tatiana ;
Almeida, Jussara ;
Almeida, Virgilio ;
Wilkinson, Kevin ;
Kuno, Harumi ;
Dayal, Umeshwar .
INTERNATIONAL JOURNAL OF PARALLEL PROGRAMMING, 2013, 41 (04) :495-525
[10]   An adaptive ensemble classifier for mining concept drifting data streams [J].
Farid, Dewan Md. ;
Zhang, Li ;
Hossain, Alamgir ;
Rahman, Chowdhury Mofizur ;
Strachan, Rebecca ;
Sexton, Graham ;
Dahal, Keshav .
EXPERT SYSTEMS WITH APPLICATIONS, 2013, 40 (15) :5895-5906