基于SPARK的海量数据频繁模式挖掘算法研究

被引:0
作者
赵焱德
机构
[1] 哈尔滨工业大学
关键词
频繁模式; Spark; 时间序列压缩; 感知重要点;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
频繁模式挖掘的目的是从数据中找出出现频率较高的内容,它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同,频繁模式分为频繁项集和频繁子序列。由于挖掘频繁模式是一个很消耗计算资源的过程,随着数据量的增加,人们必须借助于分布式的计算框架来保证处理的效率。本文第一部分专注于挖掘事务数据集上的频繁项集,研究基于分布式计算框架Spark的频繁项集挖掘算法。本文首先设计实现了与经典频繁项集挖掘算法Apriori和FP-Growth相对应的基于Spark的分布式版本,然后又提出了一个基于Spark的具有FP-Growth和Apriori两个算法特点的两阶段频繁项集挖掘算法。通过实验我们发现了每个算法的优缺点,并找到不同算法的适用范围。这些算法能够充分应用集群的计算资源,快速解决大规模数据集上挖掘频繁项集的需求。除此之外,这一部分还介绍了如何使用挖掘频繁项集的思路在Spark上挖掘序列数据集上的频繁模式。除了研究在Spark上挖掘频繁模式的算法,为了能够在数值型的时间序列数据集上挖掘频繁模式,本文第二部分的主要内容是时间序列的压缩。时间序列的压缩不仅能够有效减少数据量,还能够减少序列里的噪音。噪音的减少能够凸显出时间序列的趋势,从而有利于挖掘出有意义的频繁模式。本文从感知重要点的概念出发,通过对以往工作的扩展,设计并实现了两种基于感知重要点的时间序列压缩算法,基于全局感知重要点的压缩算法和基于局部感知重要点的压缩算法。这两种算法适用于不同类型的时间序列,并且通过实验对比了它们的运行效率和压缩的失真度。可视化是运用时间序列时一个很重要的需求,基于感知重要点的压缩算法能够很好的保留序列的趋势,具有非常好的可视化效果。
引用
收藏
页数:72
共 11 条
[1]
基于Spark的大数据挖掘技术的研究与实现 [D]. 
李文栋 .
山东大学,
2015
[2]
基于Spark的Apriori算法的改进 [J].
牛海玲 ;
鲁慧民 ;
刘振杰 .
东北师大学报(自然科学版), 2016, 48 (01) :84-89
[3]
用遗传算法解决并行多机调度问题 [J].
刘民 ;
吴澄 ;
蒋新松 .
系统工程理论与实践, 1998, (01)
[4]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[5]
Frequent pattern mining: current status and future directions [J].
Han, Jiawei ;
Cheng, Hong ;
Xin, Dong ;
Yan, Xifeng .
DATA MINING AND KNOWLEDGE DISCOVERY, 2007, 15 (01) :55-86
[6]
Mining periodic patterns with gap requirement from sequences [J].
National University of Singapore ;
不详 ;
不详 ;
不详 ;
不详 ;
不详 .
ACM Transactions on Knowledge Discovery from Data, 2007, 1 (02)
[7]
Representing financial time series based on data point importance.[J].Tak-chung Fu;Fu-lai Chung;Robert Luk;Chak-man Ng.Engineering Applications of Artificial Intelligence.2007, 2
[8]
Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases [J].
Eamonn Keogh ;
Kaushik Chakrabarti ;
Michael Pazzani ;
Sharad Mehrotra .
Knowledge and Information Systems, 2001, 3 (3) :263-286
[9]
Locally adaptive dimensionality reduction for indexing large time series databases [J].
Keogh, E ;
Chakrabarti, K ;
Mehrotra, S ;
Pazzani, M .
SIGMOD RECORD, 2001, 30 (02) :151-162
[10]
Mining frequent patterns without candidate generation [J].
Han, JW ;
Pei, J ;
Yin, YW .
SIGMOD RECORD, 2000, 29 (02) :1-12