时间序列的相似性分析问题研究

被引:0
作者
赵建秀
机构
[1] 山东师范大学
关键词
时间序列; 模式表示; 相似性度量; 信息熵; 分段线性表示; 转向角; 标记矩阵;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
随着经济、科技和社会的发展,信息技术也在飞速发展,人们对于信息和数据的研究和关注也在不断增加。时间序列从广义上讲是随着时间、空间变化的序列数据,主要采用相同时间或相同空间进行间隔度量;其作为大量数据中的一类数据,具体遍布在在现实生活中的各个领域,例如:股票涨跌走势数据序列、商场购物记录数据序列、产品销售数据序列、病患疾病特征数据序列、语音信息处理数据序列等等。如何在大量时间序列数据信息中快速、高效的查找并分析出与已知序列数据相似的隐含信息和知识,成为现在研究者们关注的热点问题。 由于时间序列的高噪声、高维度、波动性大的特点,对时间序列数据进行快速高效的分析,挖掘潜在的信息及相互间的联系,将是一个具有重要意义的课题。时间序列的挖掘分为两个阶段,第一个阶段是时间序列的模式表示;第二个阶段是时间序列的数据挖掘。模式表示主要是根据原始时间序列数据中的主要特征进行提取、拟合原始的序列曲线,对时间序列数据进行重新拟合表示。时间序列挖掘主要是对模式表示后的序列做进一步、深一层的分析研究。本文主要是以时间序列的相似性分析研究为主线,从时间序列的模式表示和时间序列的相似性度量分析方法这两个方面进行研究。本文的主要创新点和贡献如下: (1)基于信息熵的时间序列模式表示 本文提出一种基于信息熵的时间序列分段线性表示方法,它对时间序列主要是去除噪声,并且提高拟合误差,有效的解决了由于数据间剧烈变化的干扰造成的分析不准确问题。传统的序列分段线性表示方法,大多通过直接利用数据间的差值来进行模式表示,这些方法不能有效的去除噪声。实验表明,与以往方法相比,基于信息熵的时间序列分段线性表示方法在消除噪声和拟合误差方面有明显的优势。 (2)带转向标记的相似性度量分析方法 在时间序列相似性研究中,本文提出一种带重要转向标记的最长公共子序列度量方法,可以有效提高时间序列的相似性分析的速度和效率。该方法利用重要点序列,将向量间夹角余弦的概念和指针矩阵引入相似性度量比较方法中。利用模式表示后的重要点序列,基于转向角,结合分段平均划分的思想、最长公共子序列相似性度量方法原理和标记矩阵,利用转向角之间向量余弦值序列和指针矩阵快速度量分析出两序列的相似性。实验表明,该方法保证了相似性度量分析的快速、高效和有效性。
引用
收藏
页数:56
共 48 条
[1]
生物序列特征信息提取方法及其应用 [D]. 
余宏杰 .
中国科学技术大学,
2013
[2]
水文时间序列数据挖掘算法研究与应用 [D]. 
吴佳文 .
沈阳农业大学,
2011
[3]
时间序列与聚类挖掘相关技术研究 [D]. 
刘兵 .
复旦大学,
2006
[4]
时间序列的相似性查询与异常检测 [D]. 
肖辉 .
复旦大学,
2005
[5]
时间序列数据挖掘研究与应用 [D]. 
王达 .
浙江大学,
2004
[6]
时间序列数据挖掘研究 [D]. 
张保稳 .
西北工业大学,
2002
[7]
信息论基础与应用.[M].沈世镒;吴忠华编著;.高等教育出版社.2004,
[8]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[9]
Probability-based Dynamic Time Warping and Bag-of-Visual-and-Depth-Words for Human Gesture Recognition in RGB-D.[J].Antonio Hernández-Vela;Miguel Ángel Bautista;Xavier Perez-Sala;Víctor Ponce-López;Sergio Escalera;Xavier Baró;Oriol Pujol;Cecilio Angulo.Pattern Recognition Letters.2014,
[10]
Computing a longest common subsequence that is almost increasing on sequences having no repeated elements.[J].Johra Muhammad Moosa;M. Sohel Rahman;Fatema Tuz Zohora.Journal of Discrete Algorithms.2013,