本文主要研究了大数据时代下的网络恶意流量的分析与检测。本文提出了关于一种网络行为分析监控系统的设计与实现。整个系统中共分为采集部分、蜜罐系统、Hadoop处理平台以及呈现服务器四个部分。采集探针模块负责从数百个中型企业的网络出口端采集数据包,所有的数据包通过探针内部程序预处理后上传到采集服务器中。而Hadoop平台作为数据整合和数据分析的平台则要定时从采集服务器中下载当天的数据,缓解采集服务器中数据存储的压力,从采集服务器中下载的数据格式固定,以文本文件的形式存在HDFS中。搭建的蜜罐网则主要负责收集网络中的各种木马,僵尸病毒,并从中提取出这些木马,僵尸病毒的特征,传入Hadoop平台中进行分析。而Hadoop平台的处理以及分析结果将在呈现服务器中以图表的形式进行展示。本文搭建的蜜罐系统是一个闭环的结构,他主要负责吸引网络中的各种恶意流量,同时通过本文提出的可疑URL选取算法对流量数据进行初步分析并获得一个可疑URL列表。
本文还提出了一种恶意流量检测方法。所有的工作与闭环蜜罐系统一起集成为一个网络行为分析监测系统,可以有效地和精确地检测异常行为。本文提到的基于复合会话的数据采集算法很好地解决了探针内存不足的限制,复合会话是一个由src、dst、网络协议和目标端口四元组唯一标识的实体。为了消除数据采集的负面影响,本文还依托于MapReduce的框架提出了数据处理的算法。最后本文提出一个识别异常流量的三步算法:数据过滤,域名匹配和网络节点排除。首先识别网络流量中具有周期性行为的复合会话,然后通过对比白名单等手段去除一些错判对象得到最终的检测结果。