时间序列数据挖掘研究与应用

被引:0
作者
王达
机构
[1] 浙江大学
关键词
数据挖掘; 变步长; 线性度; 序列搜索; 动态时间规划; 子序列; 关联规则挖掘; 研究与应用;
D O I
暂无
年度学位
2004
学位类型
博士
导师
摘要
随着信息技术的飞速发展,数据挖掘受到越来越多的关注。本文在综述国内外数据挖掘研究发展概况后,对时间序列的表达、搜索等几个问题进行研究分析,提出一些算法和解决方案,取得一定成果,主要包括以下内容: 1)提出时间序列的趋势表示模型,可以有效刻画时间序列的动态变化趋势。通过趋势投影,实现时间序列趋势距离的快速计算。序列趋势距离方法克服以点距离为基础的时间序列误匹配以及物理概念不明确等缺陷。对应时间序列线性分段数目的不同,序列趋势距离具有基于时间的多尺度分析特性,可以有效反应不同分析频率下时间序列的相似程度; 2)采用相对点平均残差衡量BottomUp算法划分的子序列线性度,提出子序列线性度概念和一种双误差阀值改进算法,大大提高了趋势序列模型的准确性。并分别对人工数据和股票指数进行仿真计算; 3)通过分析相邻子序列趋势距离的相似性,提出一种变步长趋势子序列快速搜索算法。和已有的方法相比,在空间和时间性能上都取得了令人满意的结果。对结果冗余集合进行分析,并提出一种简单的解决方法。在模拟数据上进行仿真实验,并对结果进行分析和讨论; 4)将Dynamic Time Warping理论运用到实际工业过程数据处理中,解决由于反应时间、采样时间的不一致以及在间歇过程中,类似变化过程的采样数据长度互不相等而无法实现相似性趋势序列搜索问题。提出用趋势变换序列DTW距离做筛选的搜索方法,有效提高整个搜索效率,并在模拟数据库上进行仿真实验,并对实验结果进行分析和讨论; 5)以Borland C++Builder和Matlab为开发平台,设计一个进行关联规则挖掘的准系统IMiner,可以实现数据预处理,数据变换和关联规则挖掘等工作。并应用上述部分算法,用IMiner对一实际化工装置生产数据进行关联规则挖掘。 最后在总结全文的基础上,指出了时间序列数据挖掘有待深入研究的若干个问题。
引用
收藏
页数:103
共 17 条
[1]
一种挖掘相似子趋势的可变递增步长算法 [J].
郭斯羽 ;
吴铁军 .
浙江大学学报(工学版), 2002, (04)
[2]
动态时间错位理论及应用研究 [J].
李元 ;
王纲 .
沈阳化工学院学报, 2002, (01) :44-49
[3]
基于分形的时间序列模式挖掘方法及其应用 [J].
吕安民 ;
李成名 ;
林宗坚 ;
范明 .
郑州大学学报(自然科学版), 2001, (04) :59-62
[4]
基于小波理论的数据挖掘方法研究 [J].
张德干 ;
郝先臣 ;
徐凌宇 ;
杜庆东 ;
赵海 .
小型微型计算机系统, 2001, (08) :946-949
[5]
时间序列的细微距离发现 [J].
靳晓明 ;
陆玉昌 ;
石纯一 ;
苑森淼 .
计算机研究与发展, 2000, (09) :1064-1070
[6]
数据仓库技术与实现.[M].彭木根编著;.电子工业出版社.2002,
[7]
数据仓库与数据挖掘技术.[M]..电子工业出版社.2002,
[8]
Least squares support vector machine classifiers [J].
Suykens, JAK ;
Vandewalle, J .
NEURAL PROCESSING LETTERS, 1999, 9 (03) :293-300
[9]
Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304
[10]
A FURTHER COMPARISON OF SPLITTING RULES FOR DECISION-TREE INDUCTION [J].
BUNTINE, W ;
NIBLETT, T .
MACHINE LEARNING, 1992, 8 (01) :75-85