基于相似性分析的时间序列数据挖掘算法研究

被引：0

作者：

方如果

机构：

[1] 浙江大学

关键词：

时间序列; 相似性分析; 分段线性表示; 极值噪声; 转折点; 多模式匹配; 下界定理;

D O I：

暂无

年度学位：

2011

学位类型：

硕士

导师：

孙建伶;

摘要：

时间序列是指随着时间变化而形成的有序数据序列,它频繁地出现在金融、商业、科学和医疗等各个领域。如何管理和利用这些时序数据,发现隐藏在它们背后的规律和知识,成为人们日益关注的问题。本文在国内外时间序列数据挖掘最新研究的基础上,从相似性分析出发,研究了时间序列分段线性表示和多模式匹配等问题。本文的主要工作和创新如下： 1.研究了时间序列的表示方法、相似性度量和相似性搜索,并对其主要技术做了详细介绍和优缺点分析。 2.定义了极值噪声和转折点,在此基础上提出了基于转折点的分段线性表示方法。该方法选择极值点作为候选点,并将插值误差不超过阈值的候选点识别为噪声。实验表明,该方法在多种领域的数据集上具备更小的拟合误差,且在处理大数据量时具有较高的稳定性。 3.提出了基于转折点的自适应分段线性表示方法。该方法以转折点为初始分段点,启发式地选取插值误差最大的数据点作为关键点。实验表明,在多种领域的数据集上,该方法可以大幅度地降低拟合误差。经过优化后,该方法的时间复杂度与时间序列的长度成近似线性关系。 4.提出了基于分段聚合近似的包络线下界算法。本文借助分段聚合近似的降维能力,将其引入包络线下界算法,同时证明了下界定理,保证不会引起漏报。经过理论分析,当阈值r选择合适时,该算法的性能较经典算法和包络线下界算法有较大提升,能够处理更高带宽的流式时间序列。

引用

页数：75

共 12 条

[1]

一种快速的时间序列线性拟合算法 [J].

杜奕 ;

卢德唐 ;

李道伦 ;

赵亦朋 .

中国科学技术大学学报, 2007, (03) :310-314

[2]

基于斜率提取边缘点的时间序列分段线性表示方法 [J].

詹艳艳 ;

徐荣聪 ;

陈晓云 .

计算机科学, 2006, (11) :139-142+161

[3]

大规模时间序列数据库降维及相似搜索 [J].

李爱国 ;

覃征 .

计算机学报, 2005, (09) :1467-1475

[4]

基于分段时间弯曲距离的时间序列挖掘 [J].

肖辉 ;

胡运发 .

计算机研究与发展, 2005, (01) :72-78

[5]

时间序列的模式距离 [J].

王达 ;

荣冈 .

浙江大学学报(工学版), 2004, (07)

[6]

Anticipatory DTW for efficient similarity search in time series databases..Ira Asent;Marc Wichterich;Ralph Krieger; et al;.Proceedings of the VLDB Endowment.2009,

[7]

Automatic outlier detection for time series: an application to sensor data [J].