基于Hadoop/Hive的web日志分析系统的设计

被引:23
作者
刘永增 [1 ]
张晓景 [1 ]
李先毅 [1 ]
机构
[1] 大连理工大学网络与信息化中心
关键词
web日志; 云计算; Hadoop; Hive;
D O I
10.13624/j.cnki.issn.1001-7445.2011.s1.025
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
互联网技术的迅速发展,使得web承载的信息量呈现出爆炸式增长的趋势,因此web日志的数据量也越来愈大。如何存储、处理大规模数据就成了新的挑战。云计算技术的出现,为这类问题的解决提供了一种思路。云计算将数据通过网络分布到集群的各个计算节点上,从而完成大规模数据的存储和运算。Hadoop是一个用于构建云计算平台的流行的开源框架,广泛应用于海量数据的处理。但利用Hadoop处理数据,用户必须自己开发Map/Reduce程序。这种程序处于比较低的层次,用户不容易掌握,而且难于维护。Hive是一个基于Hadoop的开源数据仓库工具,它能够将文件映射成数据表,并提供类SQL语句,简化了用户的开发。利用Hadoop、Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度。通过与单机实验的对比,证明系统是有效的和有价值的。
引用
收藏
页码:314 / 317
页数:4
相关论文
共 4 条
[1]   基于Hadoop的Web日志挖掘 [J].
程苗 ;
陈华平 .
计算机工程, 2011, 37 (11) :37-39
[2]  
基于Hadoop的海量数据处理模型研究和应用[D]. 朱珠.北京邮电大学. 2008
[3]  
Hadoop权威指南[M]. 清华大学出版社 , (美) 怀特 (White, 2010
[4]  
Web Usage Mining:A Survey on Preprocessing of Web Log File .2 HUSSAIN T,ASGHAR S,MASOOD N. Informationand Emerging Technologies . 2010