时间序列的分割及不一致发现研究

被引:0
作者
李桂玲
机构
[1] 华中科技大学
关键词
时间序列; 分割; 聚类; 不一致发现; 异常检测;
D O I
暂无
年度学位
2012
学位类型
博士
导师
摘要
时间序列是随着时间次序而变化的系列数据。时间序列的分割和不一致发现在许多领域非常重要,如金融数据的分割、太空遥感和医学等数据的不一致发现、网络监控、移动对象轨迹流的跟踪和异常检测等。针对时间序列的分割和不一致发现方面存在的不足,开展了以下研究工作:基于符号化表示的时间序列分割、基于符号化表示的时间序列相似性度量、基于预测的时间序列分割、基于比特表示的静态时间序列不一致发现、基于分形的时间序列流异常检测。 针对基于符号化表示的已有分割方法只反映子段均值信息却丢失趋势信息的现状,提出基于趋势的符号化表示(Trend-based Symbolic approXimation,TSX)的分割方法。在对时间序列降维获得子段均值信息的同时,提炼出时间序列子段的重要趋势特征,并设计多辨析率的角度分裂区间查找表,将趋势特征离散化为符号,进而获得既提取均值信息又反映趋势信息的时间序列的符号化降维表示TSX。实验结果表明,在相似搜索中,基于TSX的分割较基于符号聚集近似法(Symbolic AggregateapproXimation,SAX)表示的分割可以更有效地支持相似搜索,错报率较低。 由于基于符号化表示的时间序列分割的度量MINIDISTPAAiSAX不具有对称性,提出了基于SAX的相似性度量方法SymPAASAX。SymPAASAX考虑了待衡量的两条时间序列在距离计算中的地位对等性,使该度量方法不仅具有对称性,而且满足下界定理。实验显示,SymPAASAX的下界紧密性较好,错报率降低。 为适应时间序列流数据在线、快速、数据量大、无法全部保存的重要特征,提出基于指数平滑预测的时间序列流的分割算法(Exponential Smoothing Predictionbased Segmentation algorithm for time series stream,ESPS)。运用经典的指数平滑法提前计算未来时刻的平滑值并作为其预测值;提出预测误差判定定理,保证预测误差的正态分布,并进一步推导出预测误差与压缩率之间的关系,为判定数据点是否为分割关键点确立了依据;基于基本滑动窗口模型,设计了ESPS算法。为弥补大多数已有的分割方法仅仅以分割后的总驻留误差作为衡量标准的缺陷,实验中采用标准分段数、标准总误差、标准总性能、计算时间等作为评估的指标。实验结果显示,相对于滑动窗口算法和滑动窗口自底向上算法,ESPS算法效果较好、效率较高。 为解决不一致发现中算法复杂度高、计算量较大的问题,提出了基于比特表示聚类的静态时间序列不一致发现算法。首先,对给定原始时间序列采用基于PAA方式比特序列化的方法进行分割,该方法不仅提取了原始序列的主要趋势特征,而且能够避免噪声的影响;然后,基于比特表示并利用聚类可以加速的思想,提出了变形的k中心点聚类算法,将具有相似变化模式的子序列归为一类;基于该聚类算法提出了不一致发现的算法,算法中采取了启发式剪枝和根据簇中心距离剪枝两种剪枝策略。实验结果说明,基于比特表示聚类的不一致发现算法有效性较好,效率较高,且具有扩展性。 时间序列的不一致发现可以应用于异常检测。为改进已有时间序列流的异常检测的效果,提出了基于分形的时间序列流异常检测算法。由于关联分形维数的改变可以用作数据集中数据趋势改变的指示器,因此,采用含有基本窗口的滑动窗口模型,利用关联分形维数捕获滑动窗口中当前可见数据的模式特征,设计了基于分形的异常检测算法。与基于TSA-tree的方法、基于免疫的方法的对比实验显示,基于分形的异常检测方法可以有效地发现异常。
引用
收藏
页数:115
共 28 条
[1]
Anomaly detection.[J].Varun Chandola;Arindam Banerjee;Vipin Kumar.ACM Computing Surveys (CSUR).2009, 3
[2]
iSAX: disk-aware mining and indexing of massive time series datasets [J].
Shieh, Jin ;
Keogh, Eamonn .
DATA MINING AND KNOWLEDGE DISCOVERY, 2009, 19 (01) :24-57
[3]
Experiencing SAX: a novel symbolic representation of time series [J].
Lin, Jessica ;
Keogh, Eamonn ;
Wei, Li ;
Lonardi, Stefano .
DATA MINING AND KNOWLEDGE DISCOVERY, 2007, 15 (02) :107-144
[4]
A bit level representation for time series data mining with shape based similarity [J].
Bagnall, Anthony ;
Ratanamahatana, Chotirat 'Ann' ;
Keogh, Eamonn ;
Lonardi, Stefano ;
Janacek, Gareth .
DATA MINING AND KNOWLEDGE DISCOVERY, 2006, 13 (01) :11-40
[5]
Exact indexing of dynamic time warping [J].
Keogh, E ;
Ratanamahatana, CA .
KNOWLEDGE AND INFORMATION SYSTEMS, 2005, 7 (03) :358-386
[6]
Online summarization of dynamic time series data.[J].Umit Y. Ogras;Hakan Ferhatosmanoglu.The VLDB Journal.2006, 1
[7]
Mining of moving objects from time-series images and its application to satellite weather imagery [J].
Honda, R ;
Wang, SA ;
Kikuchi, T ;
Konishi, O .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 19 (01) :79-93
[8]
Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases [J].
Eamonn Keogh ;
Kaushik Chakrabarti ;
Michael Pazzani ;
Sharad Mehrotra .
Knowledge and Information Systems, 2001, 3 (3) :263-286
[9]
Temporal sequence learning and data reduction for anomaly detection.[J].Terran Lane;Carla E. Brodley.ACM Transactions on Information and System Security (TISSEC).1999, 3
[10]
Syntactic recognition of ECG signals by attributed finite automata [J].
Koski, A ;
Juhola, M ;
Meriste, M .
PATTERN RECOGNITION, 1995, 28 (12) :1927-1940