基于Hadoop的并行关联规则算法研究

被引:0
作者
余楚礼
机构
[1] 天津理工大学
关键词
Hadoop; 云计算; 并行计算; 关联规则;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
在数据挖掘中,关联规则的挖掘是一个非常重要的研究方向。关联规则算法处理的对象基本是大型数据库,计算量和I/O量非常大。大型数据库的数据通常达到了TB级甚至PB级。处理这样庞大的数据集,串行算法不能满足及时处理的要求,因此,研究适合的并行算法是必须的。传统的并行计算一般基于MPI(Message Passing Interface)实现的。基于MPI实现的平台无法处理节点失效,而节点失效对于由普通计算机组成的集群来说很难避免。 Google在2004年提出的MapReduce架构能处理节点失效。MapReduce是云计算的主要基础架构。MapRedue通过把数据划分为很多块,启动多个map同时处理实现并行计算。Hadoop是MapReduce架构的开源实现。本文提出基于Hadoop的并行关联规则算法.本文提出的Hadoop的并行关联规则算法是在并行关联规则算法CD(计数分布)算法基础上实现的。对CD算法进行了改进,主要是从频繁项集推出候选集的计算只需有主进程计算一遍,候选集频度统计也只需由主进程计算一遍。 为了评估算法的性能。编写了一个基于Hadoop的并行关联规则挖掘程序。搭建了一个基本的Hadoop平台。通过改变系统map能力配置和数据集规模,运行评估计算。实验结果表明,基于Hadoop的并行关联规则算法在处理超大规模的数据集时具有优势。在处理小规模的数据集时,由于每次计算集群部署和退出任务要花掉一些时间,计算资源浪费比较严重,因此基于Hadoop的并行关联规则算法不太适合小规模数据集的计算。由于Hadoop平台本身能够处理节点失效,因此基于Hadoop平台的并行关联规则算法也能够避免节点失效。从试验时的监控输出来看,基于Hadoop的并行关联规则算法做到了动态负载均衡。 理论和试验表明,基于Hadoop的并行关联规则算法能够处理节点失效,能够做到动态负载均衡,能够适应挖掘超大规模数据集的关联规则。
引用
收藏
页数:63
共 7 条
[1]
Efficient Gather and Scatter Operations on Graphics Processors..Bingsheng He;Naga K Govindaraju;Qiong Luo;Burton Smith;.ACM/IEEE SuperComputing (SC).2007,
[2]
Relational Query Coprocessing on Graphics Processors [J].
He, Bingsheng ;
Lu, Mian ;
Yang, Ke ;
Fang, Rui ;
Govindaraju, Naga K. ;
Luo, Qiong ;
Sander, Pedro V. .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2009, 34 (04)
[3]
Mining frequent patterns without candidate generation [J].
Han, JW ;
Pei, J ;
Yin, YW .
SIGMOD RECORD, 2000, 29 (02) :1-12
[4]
Cluster-based scalable network services [J].
Fox, Armando ;
Gribble, Steven D. ;
Chawathe, Yatin ;
Brewer, Eric A. ;
Gauthier, Paul .
Operating Systems Review (ACM), 1997, 31 (05) :78-91
[5]
Dynamic itemset counting and implication rules for market basket data.[J].Sergey Brin;Rajeev Motwani;Jeffrey D. Ullman;Shalom Tsur.ACM SIGMOD Record.1997, 2
[6]
Mining association rules between sets of items in large databases.[J].Rakesh Agrawal;Tomasz Imieliński;Arun Swami.ACM SIGMOD Record.1993, 2