基于信息熵聚类的异常检测方法研究

被引:0
作者
张瑞琴
机构
[1] 北京交通大学
关键词
入侵; 异常检测; 信息熵; 数据挖掘; 聚类算法; 改进K-means;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
异常检测是入侵检测的一种检测模型,是一种积极主动的安全防护技术。它作为对传统安全保护措施的补充,有效的弥补了传统安全保护措施的缺陷,其重要性越来越得到人们的肯定。但由于网络流量数据十分庞大,很难及时发现入侵行为,异常检测性能面临巨大挑战。而数据挖掘技术能从大量数据中挖掘潜在有用的信息,能很好的解决这一问题。经典聚类算法K-means原理简单且容易实现,在异常检测的应用中具有重要的研究价值。本文以提高检测率和降低误报率为目的。对经典聚类算法K-means无法确定聚类个数K值和随机选取初始聚类中心的不足进行改进。提出一种基于信息熵和改进K-means聚类的异常检测方法。在本文研究中,用信息熵表示特征属性的变化情况,改进K-means算法做异常检测分析,采集连续三天的网络数据,并模拟攻击行为对改进方法的性能进行验证。总结主要研究重点为:(1)研究网络安全现状和传统安全保护措施。从理论上对比分析部分常用异常检测方法,把信息熵和数据挖掘聚类算法结合应用到异常检测研究中。分析网络入侵行为的一般规律,把源IP地址、目的IP地址、源端口、目的端口、连接时间作为异常检测特征属性。以一秒为时间段,计算网络流量在特征属性上的信息熵。(2)K-means聚类算法的聚类结果易受聚类个数K值的影响,而聚类个数K值一般根据经验设定。提出在聚类过程中设置分类阈值,根据聚类结果动态调整聚类个数K的值,克服聚类个数K值凭经验设定而影响聚类效果的不足。针对K.means聚类算法随机选取初始聚类中心易导致聚类结果陷入局部最优的不足,在选取初始聚类中心时,把相距最远的数据对象作为聚类中心,使初始簇之间的相似性尽可能最大,改善聚类效果和质量,从而提高异常检测的检测性能。(3)利用改进K-means聚类算法构建异常检测系统。并用训练数据集和模拟DDOS攻击、网络扫描数据集进行实验,检验异常检测系统的效果。实验结果显示,本文异常检测方法的平均检测率和平均误报率分别为98.1667%和2.0000%。与原始K-means聚类算法进行对比,检测率提高10.6667%,误报率降低3.6111%。本文提出的异常检测方法在异常检测的检测率和误报率方面都具有明显优势。
引用
收藏
页数:67
共 20 条
[1]
基于数据挖掘的分布式异常检测 [D]. 
周俊临 .
电子科技大学,
2010
[2]
一种融合Kmeans和KNN的网络入侵检测算法 [J].
华辉有 ;
陈启买 ;
刘海 ;
张阳 ;
袁沛权 .
计算机科学, 2016, 43 (03) :158-162
[3]
基于信息熵的网络流异常监测和三维可视方法 [J].
陈鹏 ;
司健 ;
于子桓 ;
王蔚旻 .
计算机工程与应用 , 2015, (12) :88-93
[4]
基于改进朴素贝叶斯算法的入侵检测系统 [J].
王辉 ;
陈泓予 ;
刘淑芬 .
计算机科学, 2014, 41 (04) :111-115+119
[5]
基于信息熵的网络流量信息结构特征研究 [J].
严承华 ;
程晋 ;
樊攀星 .
信息网络安全, 2014, (03) :28-31
[6]
NLOF:一种新的基于密度的局部离群点检测算法 [J].
王敬华 ;
赵新想 ;
张国燕 ;
刘建银 .
计算机科学, 2013, 40 (08) :181-185
[7]
一种基于聚类的异常入侵检测方法 [J].
刘凤珠 ;
龚勋 .
计算机安全, 2013, (08) :2-6
[8]
基于粒计算的K-medoids聚类算法 [J].
马箐 ;
谢娟英 .
计算机应用, 2012, 32 (07) :1973-1977
[9]
聚类和时间序列分析在入侵检测中的应用 [J].
王令剑 ;
滕少华 .
计算机应用, 2010, 30 (03) :699-701+714
[10]
基于异常检测的入侵检测技术 [J].
胡亮 ;
金刚 ;
于漫 ;
任斐 ;
任维武 .
吉林大学学报(理学版), 2009, 47 (06) :1264-1270