基于云平台的并行关联规则挖掘算法研究

被引:0
作者
毛卫俊
机构
[1] 华东理工大学
关键词
数据挖掘; 关联规则; MapReduce; 幂集; 矩阵;
D O I
暂无
年度学位
2014
学位类型
硕士
导师
摘要
随着计算机技术、通讯技术以及网络技术的迅速发展及普及,大量的数据库被广泛运用于社会生活的各个领域,积累的数据量很容易就达到TB级,甚至PB级。这些数据往往是有噪声的、大量的、异构的和复杂的,很难直接使用。所以,如何能以更加快速、低成本、高效的方式从海量数据中挖掘出有价值的、可理解的知识,从而帮助决策者更好地决策已成为数据挖掘技术领域的新课题。 云计算的出现为海量数据挖掘带来了新的解决方案。Hadoop是由Apache基金会开源实现的一种云计算技术,它的关键技术是Hadoop分布式文件系统HDFS和MapReduce并行编程框架。在深入研究传统数据挖掘算法的基础上,如何结合MapReduce并行编程框架对传统数据挖掘算法进行改进,使之能够处理海量数据挖掘问题,是数据挖掘领域的一个热点。 首先,本文详细研究了云计算、Hadoop的分布式文件系统HDFS以及MapReduce并行编程框架,阐述了基于Hadoop的数据挖掘系统的设计架构。然后,在深入研究传统关联规则挖掘算法Apriori的基础上,给出了将Apriori算法并行化处理的策略,提出了一种改进的并行算法AprioriMR。接着,在先前研究的基础上,引入幂集和矩阵的概念,提出了基于Hadoop和幂集的关联规则挖掘改进算法AprioriPMR以及基于Hadoop和矩阵的关联规则挖掘改进算法AprioriMMR。最后,搭建了结合Hadoop和HBase的实验环境,用Java完成改进算法的编写,并采用不同的实验数据集和实验条件测试了改进算法的正确性,通过实验结果的对比分析,得出改进算法具有更高的性能。
引用
收藏
页数:63
共 13 条
[1]
An Algorithm of Mining Association Rules Based on Granular Computing.[J].Xiaojun Cao.Physics Procedia.2012,
[2]
Cloud Computing: a Perspective Study [J].
Wang, Lizhe ;
von Laszewski, Gregor ;
Younge, Andrew ;
He, Xi ;
Kunze, Marcel ;
Tao, Jie ;
Fu, Cheng .
NEW GENERATION COMPUTING, 2010, 28 (02) :137-146
[3]
On the energy (In)efficiency of Hadoop clusters [J].
Leverich J. ;
Kozyrakis C. .
Operating Systems Review (ACM), 2010, 44 (01) :61-65
[4]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2010, 1
[5]
Cloud computing and emerging IT platforms: Vision; hype; and reality for delivering computing as the 5th utility.[J].Rajkumar Buyya;Chee Shin Yeo;Srikumar Venugopal;James Broberg;Ivona Brandic.Future Generation Computer Systems.2008, 6
[6]
Bigtable.[J].Fay Chang;Jeffrey Dean;Sanjay Ghemawat;Wilson C. Hsieh;Deborah A. Wallach;Mike Burrows;Tushar Chandra;Andrew Fikes;Robert E. Gruber.ACM Transactions on Computer Systems (TOCS).2008, 2
[7]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[8]
The Google file system.[J].Sanjay Ghemawat;Howard Gobioff;Shun-Tak Leung.ACM SIGOPS Operating Systems Review.2003, 5
[9]
Mining frequent patterns without candidate generation [J].
Han, JW ;
Pei, J ;
Yin, YW .
SIGMOD RECORD, 2000, 29 (02) :1-12
[10]
Mining association rules between sets of items in large databases.[J].Rakesh Agrawal;Tomasz Imieliński;Arun Swami.ACM SIGMOD Record.1993, 2