针对高速数据流的大规模数据实时处理方法

被引:94
作者
亓开元 [1 ,2 ]
赵卓峰 [1 ,3 ]
房俊 [1 ,3 ]
马强 [1 ,2 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院研究生院
[3] 北方工业大学信息工程学院
关键词
数据流处理; 大规模数据处理; MapReduce; 物联网; 大数据; 云计算;
D O I
暂无
中图分类号
TP391.44 []; TN929.5 [移动通信];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ; 080402 ; 080904 ; 0810 ; 081001 ;
摘要
以实时传感数据和历史感知数据为基础的各类计算需求逐渐成为当前物联网应用建设中的关键,如何实现基于高速数据流和大规模历史数据的实时计算成为数据处理领域的新挑战.现有批处理方式的MapReduce大规模数据处理技术难以满足此类计算的实时要求.文中结合城市车辆数据的实时采集与处理应用,在理论和实践分析的基础上,提出了一种针对高速数据流的大规模数据实时处理方法,并对方法中的本地阶段化流水线、中间结果缓存等关键技术瓶颈进行了改进.其中,根据系统参数控制阶段化流水线,使CPU得到了充分、有效利用;通过改造内外存数据结构、读写策略和替换算法,优化了本地中间结果的高并发读写性能.实验表明,上述方法可以显著提升大规模历史数据上数据流处理的实时性和可伸缩性.
引用
收藏
页码:477 / 490
页数:14
相关论文
共 1 条
[1]  
Evaluating MapReduce for multi-core and mul-tiprocessor systems. Ranger C,Raghuraman R,Penmetsa A,Bradski G,Kozyrakis C. Proceedings of the 13th InternationalConference on High-Performance Computer Architecture(HPCA 2007) . 2007