数据流挖掘算法研究

被引：0

作者：

何相志

机构：

[1] 电子科技大学

关键词：

数据流; 数据挖掘; 可视化; 聚类;

D O I：

暂无

年度学位：

2008

学位类型：

硕士

导师：

舒兰;

摘要：

近年来,得益于数据采集技术的发展,许多应用中的数据是以流的形式产生的。分析和挖掘这类数据日益成为热点问题。相对于传统的静态数据库,数据流有以下特点:(1)数据量是潜在无界的;(2)数据有很快的到达率;(3)不允许反复扫描历史数据。数据流的特点决定了数据流挖掘必须满足如下基本要求:首先,算法需要及时处理高速到达的数据,因此,算法的计算复杂度要低;再者,有限的内存不可能存储无界的数据量,因此,算法需要保持较低的空间复杂度,维持一个基本的近似空间并在此得到问题的近似解;此外,由于数据流的动态性,算法必须动态调整自身参数以适应数据流的变化。传统的数据挖掘算法很难同时满足以上三个条件,需要对以往数据挖掘算法进行改进或者设计出适应数据流的挖掘算法。近年来,数据流挖掘的研究已取得很大进展,然而,这些新方法仍具有很大的局限性,能够处理数据流的种类也很有限。本文主要工作有如下两个方面: 1.本文提出一种高维混合型数据流的可视化算法。在尽量保证数据之间区分度的前提下,算法动态调整参数,把数值型数据和分类型数据分别按照不同方法映射到颜色空间上,由此得到最近一段时间内的颜色矩阵从而作出混合型数据流的视图。 2.本文提出基于衰减聚类核心的高维混合型数据流聚类算法。首先,定义聚类核心的概念,并在此基础上利用一种“打靶”的方法判断新数据所属的聚类。针对数值型数据维和分类型数据维,定义不同的聚类核心以及不同的“打靶“方法。算法中,每个参数以及数据结构都随时间而衰减,并根据相应的时间衰减因子进行动态调整。实验表明,该算法能够动态适应数据流的变化并取得良好的聚类效果。

引用

页数：62

共 3 条

[1]

Mining data streams.[J].Mohamed Medhat Gaber;Arkady Zaslavsky;Shonali Krishnaswamy.ACM SIGMOD Record.2005, 2

[2]

RANDOM SAMPLING WITH A RESERVOIR [J].

VITTER, JS .

ACM TRANSACTIONS ON MATHEMATICAL SOFTWARE, 1985, 11 (01) :37-57

[3]

A MEASURE OF ASYMPTOTIC EFFICIENCY FOR TESTS OF A HYPOTHESIS BASED ON THE SUM OF OBSERVATIONS [J].

CHERNOFF, H .

ANNALS OF MATHEMATICAL STATISTICS, 1952, 23 (04) :493-507

← 1 →