基于相似性分析的时间序列数据挖掘算法研究

被引:0
作者
方如果
机构
[1] 浙江大学
关键词
时间序列; 相似性分析; 分段线性表示; 极值噪声; 转折点; 多模式匹配; 下界定理;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
时间序列是指随着时间变化而形成的有序数据序列,它频繁地出现在金融、商业、科学和医疗等各个领域。如何管理和利用这些时序数据,发现隐藏在它们背后的规律和知识,成为人们日益关注的问题。 本文在国内外时间序列数据挖掘最新研究的基础上,从相似性分析出发,研究了时间序列分段线性表示和多模式匹配等问题。本文的主要工作和创新如下: 1.研究了时间序列的表示方法、相似性度量和相似性搜索,并对其主要技术做了详细介绍和优缺点分析。 2.定义了极值噪声和转折点,在此基础上提出了基于转折点的分段线性表示方法。该方法选择极值点作为候选点,并将插值误差不超过阈值的候选点识别为噪声。实验表明,该方法在多种领域的数据集上具备更小的拟合误差,且在处理大数据量时具有较高的稳定性。 3.提出了基于转折点的自适应分段线性表示方法。该方法以转折点为初始分段点,启发式地选取插值误差最大的数据点作为关键点。实验表明,在多种领域的数据集上,该方法可以大幅度地降低拟合误差。经过优化后,该方法的时间复杂度与时间序列的长度成近似线性关系。 4.提出了基于分段聚合近似的包络线下界算法。本文借助分段聚合近似的降维能力,将其引入包络线下界算法,同时证明了下界定理,保证不会引起漏报。经过理论分析,当阈值r选择合适时,该算法的性能较经典算法和包络线下界算法有较大提升,能够处理更高带宽的流式时间序列。
引用
收藏
页数:75
共 12 条
[1]
一种快速的时间序列线性拟合算法 [J].
杜奕 ;
卢德唐 ;
李道伦 ;
赵亦朋 .
中国科学技术大学学报, 2007, (03) :310-314
[2]
基于斜率提取边缘点的时间序列分段线性表示方法 [J].
詹艳艳 ;
徐荣聪 ;
陈晓云 .
计算机科学, 2006, (11) :139-142+161
[3]
大规模时间序列数据库降维及相似搜索 [J].
李爱国 ;
覃征 .
计算机学报, 2005, (09) :1467-1475
[4]
基于分段时间弯曲距离的时间序列挖掘 [J].
肖辉 ;
胡运发 .
计算机研究与发展, 2005, (01) :72-78
[5]
时间序列的模式距离 [J].
王达 ;
荣冈 .
浙江大学学报(工学版), 2004, (07)
[6]
Anticipatory DTW for efficient similarity search in time series databases..Ira Asent;Marc Wichterich;Ralph Krieger; et al;.Proceedings of the VLDB Endowment.2009,
[7]
Automatic outlier detection for time series: an application to sensor data [J].
Basu, Sabyasachi ;
Meckesheimer, Martin .
KNOWLEDGE AND INFORMATION SYSTEMS, 2007, 11 (02) :137-154
[8]
Clustering of time series data - a survey [J].
Liao, TW .
PATTERN RECOGNITION, 2005, 38 (11) :1857-1874
[9]
Discovery of time-series motif from multi-dimensional data based on MDL principle [J].
Tanaka, Y ;
Iwamoto, K ;
Uehara, K .
MACHINE LEARNING, 2005, 58 (2-3) :269-300
[10]
On the need for time series data mining benchmarks: A survey and empirical demonstration [J].
Keogh, E ;
Kasetty, S .
DATA MINING AND KNOWLEDGE DISCOVERY, 2003, 7 (04) :349-371