基于SPARK的海量数据频繁模式挖掘算法研究

被引：0

作者：

赵焱德

机构：

[1] 哈尔滨工业大学

关键词：

频繁模式; Spark; 时间序列压缩; 感知重要点;

D O I：

暂无

年度学位：

2016

学位类型：

硕士

导师：

张炜;

摘要：

频繁模式挖掘的目的是从数据中找出出现频率较高的内容,它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同,频繁模式分为频繁项集和频繁子序列。由于挖掘频繁模式是一个很消耗计算资源的过程,随着数据量的增加,人们必须借助于分布式的计算框架来保证处理的效率。本文第一部分专注于挖掘事务数据集上的频繁项集,研究基于分布式计算框架Spark的频繁项集挖掘算法。本文首先设计实现了与经典频繁项集挖掘算法Apriori和FP-Growth相对应的基于Spark的分布式版本,然后又提出了一个基于Spark的具有FP-Growth和Apriori两个算法特点的两阶段频繁项集挖掘算法。通过实验我们发现了每个算法的优缺点,并找到不同算法的适用范围。这些算法能够充分应用集群的计算资源,快速解决大规模数据集上挖掘频繁项集的需求。除此之外,这一部分还介绍了如何使用挖掘频繁项集的思路在Spark上挖掘序列数据集上的频繁模式。除了研究在Spark上挖掘频繁模式的算法,为了能够在数值型的时间序列数据集上挖掘频繁模式,本文第二部分的主要内容是时间序列的压缩。时间序列的压缩不仅能够有效减少数据量,还能够减少序列里的噪音。噪音的减少能够凸显出时间序列的趋势,从而有利于挖掘出有意义的频繁模式。本文从感知重要点的概念出发,通过对以往工作的扩展,设计并实现了两种基于感知重要点的时间序列压缩算法,基于全局感知重要点的压缩算法和基于局部感知重要点的压缩算法。这两种算法适用于不同类型的时间序列,并且通过实验对比了它们的运行效率和压缩的失真度。可视化是运用时间序列时一个很重要的需求,基于感知重要点的压缩算法能够很好的保留序列的趋势,具有非常好的可视化效果。

引用

页数：72

共 11 条

[1]

基于Spark的大数据挖掘技术的研究与实现 [D].

李文栋 .

山东大学,

2015

[2]

基于Spark的Apriori算法的改进 [J].

牛海玲 ;

鲁慧民 ;

刘振杰 .

东北师大学报(自然科学版), 2016, 48 (01) :84-89

[3]

用遗传算法解决并行多机调度问题 [J].

刘民 ;

吴澄 ;

蒋新松 .

系统工程理论与实践, 1998, (01)

[4]

MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1

[5]

Frequent pattern mining: current status and future directions [J].

Han, Jiawei ;

Cheng, Hong ;

Xin, Dong ;

Yan, Xifeng .

DATA MINING AND KNOWLEDGE DISCOVERY, 2007, 15 (01) :55-86

[6]

Mining periodic patterns with gap requirement from sequences [J].

National University of Singapore ;

不详 ;

不详 .

ACM Transactions on Knowledge Discovery from Data, 2007, 1 (02)

[7]

Representing financial time series based on data point importance.[J].Tak-chung Fu;Fu-lai Chung;Robert Luk;Chak-man Ng.Engineering Applications of Artificial Intelligence.2007, 2

[8]

Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases [J].