分布式数据流关系查询技术研究

被引:36
作者
王春凯
孟小峰
机构
[1] 中国人民大学信息学院
基金
高等学校博士学科点专项科研基金;
关键词
大数据; 数据流; 流处理系统; 流查询系统; 关系查询技术;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生.大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如S4、Storm、Spark Streaming等.然而,为提升处理系统的易用性和处理能力,需要在其之上构建具有抽象查询语言的关系查询系统,以构筑完整的分布式数据流管理系统.如何设计并实现高效易用的关系查询系统是一个亟待解决的问题.文中首先概述了分布式数据流查询处理的典型应用、数据特征和实现目标.进而,提出了分布式数据流关系查询系统的基础架构,并基于此架构深入分析了用户自定义函数查询、查询优化、驱动方式、编译技术、算子管理、调度管理和并行管理等关键技术.然后,对比分析了SPL、StreamingSQL、Squall和DBToaster这4种具有代表性的查询系统实例.最后,指明了该技术在优化技术、执行策略、实时精准查询和复杂查询分析等方面所面临的挑战和今后的研究工作.
引用
收藏
页码:80 / 96
页数:17
相关论文
共 15 条
[1]
分布式流处理技术综述 [J].
崔星灿 ;
禹晓辉 ;
刘洋 ;
吕朝阳 .
计算机研究与发展, 2015, 52 (02) :318-332
[2]
大数据流式计算:关键技术及系统实例 [J].
孙大为 ;
张广艳 ;
郑纬民 .
软件学报, 2014, 25 (04) :839-862
[3]
网络大数据:现状与展望 [J].
王元卓 ;
靳小龙 ;
程学旗 .
计算机学报, 2013, 36 (06) :1125-1138
[4]
大数据管理:概念、技术与挑战 [J].
孟小峰 ;
慈祥 .
计算机研究与发展, 2013, (01) :146-169
[5]
大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].
李国杰 ;
程学旗 .
中国科学院院刊, 2012, 27 (06) :647-657
[6]
DBToaster: higher-order delta processing for dynamic; frequently fresh views.[J] Christoph Koch;Yanif Ahmad;Oliver Kennedy;Milos Nikolic;Andres Nötzli;Daniel Lupei;Amir Shaikhha VLDB J. 2014,
[7]
Distributed data management using MapReduce[J] Feng Li;Beng Chin Ooi;M. Tamer Özsu;Sai Wu ACM Computing Surveys (CSUR) 2014,
[8]
Adaptive optimization for multiple continuous queries[J] Hong Kyu Park;Won Suk Lee Data & Knowledge Engineering 2011,
[9]
Bayesian analysis of computer code outputs: A tutorial[J] A. O’Hagan Reliability Engineering and System Safety 2005,
[10]
Efficient streaming text clustering[J] Shi Zhong Neural Networks 2005,