面向大规模网络安全态势分析的时序数据挖掘关键技术研究

被引:0
作者
程文聪
机构
[1] 国防科学技术大学
关键词
时序数据; 时序数据挖掘; 网络安全态势分析; 异常检测; 区间skyline; 相似子序列搜索; 预测;
D O I
暂无
年度学位
2010
学位类型
博士
导师
摘要
网络安全态势分析能够帮助网络管理者了解大规模网络的安全状态,并能为管理决策提供依据,因此近年来日益受到了政府和研究机构的关注和重视。为了获取大规模网络安全态势分析所需的基础数据,一些威胁检测工具被部署在了骨干网络上。由于对性能有较高要求,这些工具往往会采用专用化方式部署,因此产生出的数据的可关联性较差,难以通过小规模网络安全分析中常用的关联分析法进行处理,而一般只能通过统计分析来提取其中的信息。这些统计分析信息随时间变化所形成的网络安全时序数据可以反映出网络风险的变化,因而大规模网络的安全态势分析很大程度上依赖于对这些网络安全时序数据的有效挖掘。 本文面向大规模网络安全态势分析的需求,以“863-917”网络安全监测平台所采集到的木马数据以及蜜网系统所获得的僵尸网络数据为实例研究对象,针对网络安全时序数据进行挖掘研究,从发现这些数据的特殊变化和提供决策参考的角度提取出几个关键性问题进行了研究。主要工作包括: 1、伪周期网络安全时序数据异常波段检测。许多网络安全时序数据具有典型的伪周期特征,其中异常波段的出现往往表明网络安全风险发生了一定变化,具有进一步深入分析的必要。由于网络环境具有不稳定性,因而通过引入具有较好偏移适应性的动态时间弯曲距离作为不同波段间的相似性度量,可以有效地检测出有较少历史相似波段的异常波段。在此基础上我们提出了一种基于聚类索引的异常波段检测方法用以加速该检测过程。在木马数据集和僵尸网络数据集上的实验表明该方法能以损失一定检测准确度为代价,取得比直接基于DTW的算法更高的检测效率。 2、基于小波概要的网络安全时序数据流区间差分skyline查询。在进行网络安全态势分析的过程中,需要从大量同构的网络安全时序数据里选择出某些具有特殊性的数据作为重点关注对象。基于量值度量,现有的区间skyline查询有时不能满足网络安全应用的需求,且可能存在“淹没”现象。为此本文提出区间差分skyline的概念,面向特定时间区间内的数据增长属性进行处理以弥补现有研究的不足。并利用小波参数的差分性质,在网络安全时序数据流处理的背景下,给出了在常用的小波概要上快速进行不同粒度区间差分skyline查询的算法。在多地区、多种类木马数据集上的实验验证了本文所提方法能够在一定程度上避免基于量值度量的区间skyline查询的不足,并且与直接使用部分逆小波变换的算法相比有较低的计算复杂度。 3、多维网络安全时序数据相似子序列搜索。历史相似子序列可以为网络管理者提供决策参考依据,并可用于对网络安全时序数据的定性预测。为了能够更好地利用近期出现的数据,本文通过引入数据立方体模型将相似子序列搜索问题扩展到了多维场景。继而利用数据立方体相邻层次单元间的相关性对搜索算法进行了改进,从而提高了搜索效率。在多维木马数据集上的实验验证了本文所提方法能够在具有多维组织结构的网络安全时序数据中搜索出更多有价值的匹配结果,并且能在保证准确性的基础上提高搜索算法的效率。 4、网络安全时序数据预测。预测问题长期以来备受关注,同时也是网络安全态势分析中的一项重要需求。网络安全时序数据变化复杂,影响因素众多,难以对其建立合适的预测模型,因此传统的预测方法对此类数据的预测准确性往往较差。本文从基于案例推理的思想出发,通过引入事件序列分析领域中频繁情节的概念和方法为网络安全时序数据预测问题提供了新的解决思路。在此基础上针对具有不同特征的数据给出了利用均值特征和趋势特征进行预测的具体方法。通过在木马数据集和僵尸网络数据集上与其它几种常用预测方法的比较实验表明,本文所提出的方法在预测网络安全时序数据时具有较高的预测准确性。 综上所述,本文的工作针对大规模网络安全态势分析背景下的时序数据挖掘问题,围绕着该问题在实际应用中涉及的若干个关键技术进行研究。本文对于促进该问题的理论研究和实用化具有一定的理论和应用价值。
引用
收藏
页数:134
共 27 条
[1]
混沌、分形及其应用.[M].王东生;曹磊 编著.中国科学技术大学出版社.1995,
[2]
Stream cube: An architecture for multi-dimensional analysis of data streams [J].
Han, JW ;
Chen, YX ;
Dong, GZ ;
Pei, H ;
Wah, BW ;
Wang, JY ;
Cai, YD .
DISTRIBUTED AND PARALLEL DATABASES, 2005, 18 (02) :173-197
[3]
The spinning cube of potential doom [J].
Lau, S .
COMMUNICATIONS OF THE ACM, 2004, 47 (06) :25-26
[4]
Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases [J].
Eamonn Keogh ;
Kaushik Chakrabarti ;
Michael Pazzani ;
Sharad Mehrotra .
Knowledge and Information Systems, 2001, 3 (3) :263-286
[5]
Aligning gene expression time series with time warping algorithms.[J].John Aach.Bioinformatics.2001,
[6]
Intrusion detection systems and multisensor data fusion [J].
Bass, T .
COMMUNICATIONS OF THE ACM, 2000, 43 (04) :99-105
[7]
Web usage mining.[J].Jaideep Srivastava;Robert Cooley;Mukund Deshpande;Pang-Ning Tan.ACM SIGKDD Explorations Newsletter.2000, 2
[8]
Wavelet-based histograms for selectivity estimation.[J].Yossi Matias;Jeffrey Scott Vitter;Min Wang.ACM SIGMOD Record.1998, 2
[9]
Mental models and situation awareness in air traffic control [J].
Mogford, RH .
INTERNATIONAL JOURNAL OF AVIATION PSYCHOLOGY, 1997, 7 (04) :331-341
[10]
Discovery of frequent episodes in event sequences [J].
Mannila, H ;
Toivonen, H ;
Verkamo, AI .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (03) :259-289