基于事件处理的分布式系统故障定位技术

被引:2
作者
杜翠兰 [1 ]
谭建龙 [2 ]
王晓岩 [2 ,3 ]
张宇 [2 ,3 ]
刘萍 [2 ]
樊冬进 [1 ]
机构
[1] 国家计算机网络应急技术处理协调中心
[2] 中国科学院信息工程研究所
[3] 中国科学院大学
关键词
分布式网络; 实时监控系统; 故障定位;
D O I
暂无
中图分类号
TP393.08 [];
学科分类号
0839 ; 1402 ;
摘要
近年来,分布式计算系统的规模越来越大、行为越来越复杂难控,系统中出现的各种故障也呈指数级增长,造成了非常严重的危害和损失,并且出现问题时对故障的排查、定位难度进一步加大。传统的通过跟踪程序运行轨迹来判断程序运行正确与否的方法,在分布式监控信息的交互上因消耗过大而且对目标程序侵入性高,已经难以满足软件行为分析的需求。通过复杂事件的处理及时发现和定位系统故障在事件大量、快速、不间断发生的分布式监控环境中显得尤为迫切。它可以利用有意义的信息状态变化事件分析系统行为,进而判断系统的运行状况,及时发现系统故障并定位,保证系统的健康运行。当前已有的复杂事件描述语言大多数是基于SQL的方法来描述复杂事件。这种数据流查询语言对于普通用户而言比较复杂,难以掌握。通过构建一种基于集合的事件流模型,对事件进行形式化定义,使用集合来表示事件,并定义相应的操作,使得用户只需掌握几个简单的集合操作,便可以定义复杂的故障规则。
引用
收藏
页码:302 / 306
页数:5
相关论文
共 1 条
  • [1] 基于事件关联和数据挖掘的网络故障管理技术的研究.[D].岳海涛.中南大学.2010, 02