基于云平台的并行关联规则挖掘算法研究

被引：0

作者：

毛卫俊

机构：

[1] 华东理工大学

关键词：

数据挖掘; 关联规则; MapReduce; 幂集; 矩阵;

D O I：

暂无

年度学位：

2014

学位类型：

硕士

导师：

郭卫斌;

摘要：

随着计算机技术、通讯技术以及网络技术的迅速发展及普及,大量的数据库被广泛运用于社会生活的各个领域,积累的数据量很容易就达到TB级,甚至PB级。这些数据往往是有噪声的、大量的、异构的和复杂的,很难直接使用。所以,如何能以更加快速、低成本、高效的方式从海量数据中挖掘出有价值的、可理解的知识,从而帮助决策者更好地决策已成为数据挖掘技术领域的新课题。云计算的出现为海量数据挖掘带来了新的解决方案。Hadoop是由Apache基金会开源实现的一种云计算技术,它的关键技术是Hadoop分布式文件系统HDFS和MapReduce并行编程框架。在深入研究传统数据挖掘算法的基础上,如何结合MapReduce并行编程框架对传统数据挖掘算法进行改进,使之能够处理海量数据挖掘问题,是数据挖掘领域的一个热点。首先,本文详细研究了云计算、Hadoop的分布式文件系统HDFS以及MapReduce并行编程框架,阐述了基于Hadoop的数据挖掘系统的设计架构。然后,在深入研究传统关联规则挖掘算法Apriori的基础上,给出了将Apriori算法并行化处理的策略,提出了一种改进的并行算法AprioriMR。接着,在先前研究的基础上,引入幂集和矩阵的概念,提出了基于Hadoop和幂集的关联规则挖掘改进算法AprioriPMR以及基于Hadoop和矩阵的关联规则挖掘改进算法AprioriMMR。最后,搭建了结合Hadoop和HBase的实验环境,用Java完成改进算法的编写,并采用不同的实验数据集和实验条件测试了改进算法的正确性,通过实验结果的对比分析,得出改进算法具有更高的性能。

引用

页数：63

共 13 条

[1]

An Algorithm of Mining Association Rules Based on Granular Computing.[J].Xiaojun Cao.Physics Procedia.2012,

[2]

Cloud Computing: a Perspective Study [J].

Wang, Lizhe ;

von Laszewski, Gregor ;

Younge, Andrew ;

He, Xi ;

Kunze, Marcel ;

Tao, Jie ;

Fu, Cheng .

NEW GENERATION COMPUTING, 2010, 28 (02) :137-146

[3]

On the energy (In)efficiency of Hadoop clusters [J].

Leverich J. ;

Kozyrakis C. .

Operating Systems Review (ACM), 2010, 44 (01) :61-65

[4]

MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2010, 1

[5]

Cloud computing and emerging IT platforms: Vision; hype; and reality for delivering computing as the 5th utility.[J].Rajkumar Buyya;Chee Shin Yeo;Srikumar Venugopal;James Broberg;Ivona Brandic.Future Generation Computer Systems.2008, 6

[6]

Bigtable.[J].Fay Chang;Jeffrey Dean;Sanjay Ghemawat;Wilson C. Hsieh;Deborah A. Wallach;Mike Burrows;Tushar Chandra;Andrew Fikes;Robert E. Gruber.ACM Transactions on Computer Systems (TOCS).2008, 2

[7]

MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1

[8]

The Google file system.[J].Sanjay Ghemawat;Howard Gobioff;Shun-Tak Leung.ACM SIGOPS Operating Systems Review.2003, 5

[9]

Mining frequent patterns without candidate generation [J].

Han, JW ;

Pei, J ;

Yin, YW .

SIGMOD RECORD, 2000, 29 (02) :1-12

[10]

Mining association rules between sets of items in large databases.[J].Rakesh Agrawal;Tomasz Imieliński;Arun Swami.ACM SIGMOD Record.1993, 2

← 1 2 →