基于Hadoop与Storm的日志实时处理系统研究

被引:15
作者
李洋 [1 ]
吕家恪 [1 ,2 ]
机构
[1] 西南大学计算机与信息科学学院
[2] 重庆市数字农业重点实验室
基金
中央高校基本科研业务费专项资金资助;
关键词
日志; Hadoop; Flume; Storm; HBase;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
日志数据记录着丰富的信息,具有较高的实用价值,但在当今大数据时代环境下,数据量的陡增为日志数据的处理带来了挑战.为了有效地解决海量日志数据处理面临的瓶颈问题,本文整合Hadoop和Storm分布式框架,构建一种融合了实时计算与离线计算的分布式日志实时处理系统.系统架构由数据服务层、业务逻辑层和Web展示层组成,数据服务层使用Flume实时采集日志数据,并分别采用Kafka与HBase完成实时日志流数据的缓冲和系统数据的持久化存储;业务逻辑层利用Storm对实时日志流数据进行实时分析,并使用Hadoop的计算引擎MapReduce结合数据挖掘技术完成对海量历史日志数据的离线分析,离线分析的结果为实时分析提供支持、参考;Web展示层负责日志数据及其分析结果的展示.实验结果表明,系统能有效地解决日志数据的采集存储、实时日志流数据的实时分析和历史日志数据的离线分析等问题,并成功地融合了Hadoop与Storm各自的优势,为日志数据的采集和分析系统的构建提供新的技术参考.
引用
收藏
页码:119 / 126
页数:8
相关论文
共 9 条
[1]   基于Apache Flume的分布式日志收集系统设计与实现 [J].
郝璇 .
软件导刊, 2014, 13 (07) :110-111
[2]   基于Storm的云计算在自动清分系统中的实时数据处理应用 [J].
胡宇舟 ;
范滨 ;
顾学道 ;
缪力 .
计算机应用, 2014, 34(S1) (S1) :96-99
[3]   云计算环境下的一种基于Hbase的ORM设计实现 [J].
周相兵 ;
马洪江 ;
苗放 .
西南师范大学学报(自然科学版), 2013, 38 (08) :130-135
[4]   基于HBase的大规模无线传感网络数据存储系统 [J].
陈庆奎 ;
周利珍 .
计算机应用, 2012, 32 (07) :1920-1923+1977
[5]   基于Hadoop的Web日志挖掘 [J].
程苗 ;
陈华平 .
计算机工程, 2011, 37 (11) :37-39
[6]   一种基于序列数的关联规则挖掘算法 [J].
王仕平 ;
蒋玲 ;
熊江 ;
方刚 .
西南大学学报(自然科学版), 2011, (03) :122-127
[7]  
Hadoop; MapReduce and HDFS: A Developers Perspective.[J].Mohd Rehan Ghazi;Durgaprasad Gangodkar.Procedia Computer Science.2015,
[8]   Advances and Challenges in Log Analysis [J].
Oliner, Adam ;
Ganapathi, Archana ;
Xu, Wei .
COMMUNICATIONS OF THE ACM, 2012, 55 (02) :63-69
[9]   A View of Cloud Computing [J].
Armbrust, Michael ;
Fox, Armando ;
Griffith, Rean ;
Joseph, Anthony D. ;
Katz, Randy ;
Konwinski, Andy ;
Lee, Gunho ;
Patterson, David ;
Rabkin, Ariel ;
Stoica, Ion ;
Zaharia, Matei .
COMMUNICATIONS OF THE ACM, 2010, 53 (04) :50-58