基于Hadoop用户行为分析系统设计与实现

被引:0
作者
郝增勇
机构
[1] 北京交通大学
关键词
用户行为分析; Mapreduce; HTTP协议还原; TCP重组;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
摘要:信息技术的快速发展使互联网广泛应用于人类传统产业。近年来,新型社交网络以及移动互联网技术促使网络用户数量的飞速增长,网络数据呈现爆炸式的增长。“大数据”成为一种关键技术,用来分析和挖掘网络数据的潜在规律和应用价值。网络数据的产生离不开用户的上网行为。准确、快速地从海量数据中挖掘用户的具体网络行为信息、提取用户行为特征对策略管控和智能服务以及推动未来智慧协同网络发展至关重要。为此,本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统。本系统实现了海量数据包抓取和分布式存储、TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑。 本文采用了基于Hadoop的用户行为分析方法,首先利用高速捕包工具PFRING抓取网络入口的数据作为用户行为分析的数据源,并将其分布式存储,然后调用网络安全开发包工具Libnids对数据包进行重组,实现TCP/IP的重组,实现应用层HTTP还原,然后调用Hadoop集群,利用分布式Mapreduce编程来分析出用户应用层的网络行为活动,实现从物理层到应用层的全层分析,从用户的搜索词、购物趋向、网站留言和常规网站行为四个维度对用户进行全面的定位。及时了解用户行为和需求,进而策略管控用户行为和优化网络服务,实现网络智能化。 本文通过借鉴现有网络中的较为成熟的行为分析技术和海量数据处理平台,研究并设计了基于Hadoop用户行为分析系统。主要研究内容包括:(1)研究在大数据环境下的数据包捕获技术,数据包捕获基于PF_RING技术实现;(2)研究开发数据存储技术,用于存储高速数据包捕获系统的输出文件;(3)研究在Mapreduce框架下对HTTP协议还原技术。
引用
收藏
页数:71
共 23 条
[1]
基于流量监测的网络用户行为分析 [D]. 
延皓 .
北京邮电大学,
2011
[2]
基于Hadoop生态系统的大数据解决方案综述 [J].
陈吉荣 ;
乐嘉锦 .
计算机工程与科学, 2013, 35 (10) :25-35
[3]
深层网站Ajax页面数据采集研究综述 [J].
杨俊峰 ;
黎建辉 ;
杨风雷 .
计算机应用研究, 2013, 30 (06) :1606-1610+1616
[4]
基于网络用户信息行为的个性化推荐模型 [J].
余肖生 ;
孙珊 .
重庆理工大学学报(自然科学), 2013, 27 (01) :47-50
[5]
大数据时代的挑战、价值与应对策略 [J].
陈如明 .
移动通信, 2012, 36 (17) :14-15
[6]
浅析TCP/IP协议及其安全 [J].
李东灵 ;
毛自民 .
价值工程, 2012, 31 (10) :161-162
[7]
Hadoop平台在云计算中的应用 [J].
王宏宇 .
软件, 2011, 32 (04) :36-38+50
[8]
基于零拷贝技术的千兆网络性能优化研究 [J].
夏鸿 ;
程克非 .
微计算机信息, 2008, 24 (36) :155-157
[9]
基于零拷贝的网络数据捕获技术的研究与实现 [J].
张珂 ;
权义宁 .
电子科技, 2007, (11) :46-49+54
[10]
应用层协议分析在状态检测防火墙中的应用 [J].
郭锡泉 .
计算机工程, 2007, (03) :154-156