云计算系统中基于伴随状态追踪的故障检测机制

被引:25
作者
饶翔 [1 ]
王怀民 [1 ]
陈振邦 [1 ]
周扬帆 [2 ]
蔡华 [3 ]
周琦 [3 ]
孙廷韬 [3 ]
机构
[1] 国防科学技术大学并行与分布处理国家重点实验室
[2] 香港中文大学深圳研究院
[3] 阿里巴巴云计算公司计算平台部
基金
国家杰出青年科学基金;
关键词
事件日志; 故障检测; 故障注入; 故障特征提取; 云计算系统;
D O I
暂无
中图分类号
TP338.8 [分布式计算机];
学科分类号
摘要
在运行时检测分布式系统内所产生的故障需要事先获得故障特征模型.构造故障特征模型的常见做法为将故障注入系统并根据随后系统内所产生的特征症状(如异常事件日志)建模.已有建模方法通常使用从故障发生到给定时间窗口之内的特征症状.然而,根据真实系统观察,不同故障的传播影响时间相差很大,且故障特征会在故障传播过程中发生改变.因此,已有方法对检测时间窗口之后发的故障特征症状不能识别或会产生大量错误报警.为了解决此问题,文中提出一种基于故障注入测试的故障特征提取方法,该方法主要由3步组成:(1)过滤噪声日志;(2)构造1个故障识别器识别不同故障的早期特征;(3)为每类故障构造限状态追踪器追踪该故障的后期传播状态,从而在故障被识别出来后持续跟踪故障传播状态.通过在企业级云计算系统中进行实验验证,与已有方法相比该文方法具备更高的故障检测精确度.
引用
收藏
页码:856 / 870
页数:15
相关论文
共 3 条
  • [1] Self-adaptive software[J] . Mazeiar Salehie,Ladan Tahvildari.ACM Transactions on Autonomous and Adaptive Systems (TAAS) . 2009 (2)
  • [2] Mining association rules between sets of items in large databases[J] . Rakesh Agrawal,Tomasz Imieliński,Arun Swami.ACM SIGMOD Record . 1993 (2)
  • [3] Error log analysis: statistical modeling and heuristic trend analysis. Lin TTY, Siewiorek DP. IEEE Transactions on Reliability . 1990