基于信息熵聚类的异常检测方法研究

被引：0

作者：

张瑞琴

机构：

[1] 北京交通大学

关键词：

入侵; 异常检测; 信息熵; 数据挖掘; 聚类算法; 改进K-means;

D O I：

暂无

年度学位：

2016

学位类型：

硕士

导师：

王伟;

摘要：

异常检测是入侵检测的一种检测模型,是一种积极主动的安全防护技术。它作为对传统安全保护措施的补充,有效的弥补了传统安全保护措施的缺陷,其重要性越来越得到人们的肯定。但由于网络流量数据十分庞大,很难及时发现入侵行为,异常检测性能面临巨大挑战。而数据挖掘技术能从大量数据中挖掘潜在有用的信息,能很好的解决这一问题。经典聚类算法K-means原理简单且容易实现,在异常检测的应用中具有重要的研究价值。本文以提高检测率和降低误报率为目的。对经典聚类算法K-means无法确定聚类个数K值和随机选取初始聚类中心的不足进行改进。提出一种基于信息熵和改进K-means聚类的异常检测方法。在本文研究中,用信息熵表示特征属性的变化情况,改进K-means算法做异常检测分析,采集连续三天的网络数据,并模拟攻击行为对改进方法的性能进行验证。总结主要研究重点为：(1)研究网络安全现状和传统安全保护措施。从理论上对比分析部分常用异常检测方法,把信息熵和数据挖掘聚类算法结合应用到异常检测研究中。分析网络入侵行为的一般规律,把源IP地址、目的IP地址、源端口、目的端口、连接时间作为异常检测特征属性。以一秒为时间段,计算网络流量在特征属性上的信息熵。(2)K-means聚类算法的聚类结果易受聚类个数K值的影响,而聚类个数K值一般根据经验设定。提出在聚类过程中设置分类阈值,根据聚类结果动态调整聚类个数K的值,克服聚类个数K值凭经验设定而影响聚类效果的不足。针对K.means聚类算法随机选取初始聚类中心易导致聚类结果陷入局部最优的不足,在选取初始聚类中心时,把相距最远的数据对象作为聚类中心,使初始簇之间的相似性尽可能最大,改善聚类效果和质量,从而提高异常检测的检测性能。(3)利用改进K-means聚类算法构建异常检测系统。并用训练数据集和模拟DDOS攻击、网络扫描数据集进行实验,检验异常检测系统的效果。实验结果显示,本文异常检测方法的平均检测率和平均误报率分别为98.1667%和2.0000%。与原始K-means聚类算法进行对比,检测率提高10.6667%,误报率降低3.6111%。本文提出的异常检测方法在异常检测的检测率和误报率方面都具有明显优势。

引用

页数：67

共 20 条

[1]

基于数据挖掘的分布式异常检测 [D].