索引和查询是数据挖掘中各项任务的基础和关键问题。本文对时间序列挖掘中的索引和查询技术进行了研究,比较系统地研究了时间序列的查询方式、表示与索引和相似性度量等问题;提出了计算几何应用到时间序列挖掘的方法,实现了时间序列全序列匹配查询、模式查询、反向查询和异常检测,查询效率和准确性都有了比较大的提高。主要研究成果如下:
1.时间序列查询方式
利用计算几何中邻近问题的原理和方法,根据时间序列的构成要素,对时间序列的查询方式进行了系统地分类。按查询对象将时间序列查询分为点查询、模式查询和序列查询;按查询方式将时间序列查询分为范围查询、邻近查询和点对查询,拓宽了时间序列查询的方式,为序列挖掘提供了更加有力的工具。
2.时间序列表示与索引
在基于重要点分段的基础上,主要研究了时间序列的KL表示方法。利用Voronoi图对数据进行组织和管理,为时间序列查询提供了一种新的索引方法。同时,针对时间序列原始数据的反向查询,提出了一种新的时间序列索引方法—IC-索引。
3.时间序列相似性查询
系统地研究了时间序列各种查询方式的实现算法。提出了KL相似性度量,实现了全序列匹配查询;利用计算几何方法,实现了线性模式的邻近查询、最近模式对查询和最远模式对查询,算法在时间上都是最优的;提出了一种新的时间序列反向查询方法,查询效率和准确性都有比较大的提高。
4.时间序列异常检测
利用Voronoi图的基本原理,提出了一种基于密度的异常检测方法VOD,并应用到时间序列的线性模式异常检测,将现有算法的复杂性从O(n2)降低到O(nlogn),检测效率和性能都有了很大的提高。