基于Hadoop的Apriori算法改进与移植的研究

被引:0
作者
朱安柱
机构
[1] 华中科技大学
关键词
Hadoop; Apriori算法; MapReduce; 关联规则; 云计算;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
目的 随着计算机技术和互联网的飞速发展,Web2.0的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。Hadoop作为一款比较成熟的开源云计算框架,以其高效、可扩展、低成本等优点在数据挖掘的相关领域得到了广泛应用。基于此,本文将Hadoop与典型的数据挖掘系统进行整合,并选择了新的数据挖掘系统的算法模块部分中应用较为广泛的Apriori算法进行改进,以提高其在处理海量数据时的效率。 方法 本文采用的研究方法包括:文献研究法,结构化方法,实例分析法和对比分析法。文献研究法可以了解相关研究的现状,还为本文的研究提供理论参考;结构化方法是系统分析常用的方法,对基于Hadoop的云数据挖掘系统架构的分析具有指导意义;通过实例分析法阐述了传统Apriori算法的执行流程并论证了改进算法的可行性;通过对比分析法,分析了改进算法的优势。 结果 (1)结合典型的数据挖掘系统架构,将其与Hadoop进行整合,提出了基于Hadoop的数据挖掘系统架构,并对各个功能模块进行了简要阐述。 (2)在对Apriori算法进行了详细阐述的基础上,针对其在处理海量数据时存在的瓶颈,利用MapReduce编程模式,本文提出了基于数据库划分的并行化改进的思想。通过对改进算法的详细阐述和设计,结合实例论证了改进算法的可行性,并对改进算法进行了分析。 (3)通过实例分析,得到改进算法具有更高的效率,降低了时间复杂度和空间复杂度。 结论 (1)云计算给数据挖掘算法的改进带来了新的方式,云数据挖掘将成为未来的研究趋势。 (2)本文的研究具有一定的意义,它为数据挖掘其它算法的改进提供了参考。越来越多的算法将被并行化移植到Hadoop云数据挖掘平台。
引用
收藏
页数:79
共 38 条
[1]
基于MapReduce的频繁项集挖掘方法 [J].
戎翔 ;
李玲娟 .
西安邮电学院学报, 2011, 16 (04) :37-39+43
[2]
基于云计算的关联规则挖掘算法 [J].
侯建 ;
帅仁俊 ;
侯文 .
化工自动化及仪表, 2011, 38 (05) :579-581+613
[3]
一种基于Hadoop的并行关联规则算法 [J].
余楚礼 ;
肖迎元 ;
尹波 .
天津理工大学学报, 2011, 27 (01) :25-28+32
[4]
云计算环境下关联规则挖掘算法的研究 [J].
李玲娟 ;
张敏 .
计算机技术与发展, 2011, 21 (02) :43-46+50
[5]
浅谈基于云计算的数据挖掘技术 [J].
周晏 ;
桑书娟 .
电脑知识与技术, 2010, 6 (34) :9681-9683
[6]
搭建基于云计算的开源海量数据挖掘平台 [J].
赵华茗 .
现代图书情报技术, 2010, (10) :76-81
[7]
基于Hadoop的网络日志分析系统研究 [J].
胡光民 ;
周亮 ;
柯立新 .
电脑知识与技术, 2010, 6 (22) :6163-6164+6185
[8]
一种旅行数据约束关联规则挖掘算法 [J].
吴斌 ;
马超 .
计算机工程与应用, 2010, 46 (20) :129-132+137
[9]
基于Hadoop的海量数据管理系统 [J].
多雪松 ;
张晶 ;
高强 .
微计算机信息, 2010, 26 (13) :202-204
[10]
云计算下的海量数据挖掘研究 [J].
王鄂 ;
李铭 .
现代计算机(专业版), 2009, (11) :22-25+50