基于Hadoop的Web日志预处理的设计与实现

被引:6
作者
宋莹 [1 ,2 ]
沈奇威 [1 ,2 ]
王晶 [1 ,2 ]
机构
[1] 北京邮电大学网络与交换技术国家重点实验室
[2] 东信北邮信息技术有限公司
关键词
Web日志预处理; Web结构; map/reduce;
D O I
10.13992/j.cnki.tetas.2011.11.018
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
Web日志预处理是Web日志挖掘的重要步骤,是通过Web日志获得准确信息的前提,直接影响后续的挖掘算法精确性。本文针对海量Web日志,提出并基于分布式计算平台Hadoop实现了一种改进的Web日志预处理方法。通过Hadoop平台与单机的性能对比,证明了Hadoop进行Web日志预处理的高效性。
引用
收藏
页码:84 / 89
页数:6
相关论文
共 7 条
[1]  
Web日志挖掘中数据预处理算法的研究.[D].朱鹤祥.大连交通大学.2010, 08
[2]   基于Hadoop的Web日志挖掘 [J].
程苗 ;
陈华平 .
计算机工程, 2011, 37 (11) :37-39
[3]   Web日志数据挖掘中数据预处理模型的研究与建立 [J].
赵莹莹 ;
韩元杰 .
现代电子技术, 2007, (04) :103-105
[4]   Web挖掘技术及其在网络教学评价中的应用 [J].
杨清莲 ;
周庆敏 ;
常志玲 .
南京工业大学学报(自然科学版), 2005, (05) :100-103
[5]   一个简单的Web日志挖掘系统 [J].
杨怡玲 ;
管旭东 ;
陆丽娜 ;
尤晋元 .
上海交通大学学报, 2000, (07) :932-935
[6]  
Data Preparation for Mining World Wide Web Browsing Patterns.[J].Robert Cooley;Bamshad Mobasher;Jaideep Srivastava.Knowledge and Information Systems.1999, 1
[7]  
博赞学习技巧.[M].(英) 博赞 (Buzan;T.) ; 著.中信出版社.2009,