基于Hadoop的Apriori算法改进与移植的研究

被引：0

作者：

朱安柱

机构：

[1] 华中科技大学

关键词：

Hadoop; Apriori算法; MapReduce; 关联规则; 云计算;

D O I：

暂无

年度学位：

2012

学位类型：

硕士

导师：

郭一平;

摘要：

目的随着计算机技术和互联网的飞速发展，Web2.0的成熟与广泛应用，数据呈现爆炸式增长，传统的数据挖掘算法在处理海量数据时效率低下，云计算的出现为其改进带来了新的方式。云计算通过集群威力，实现了对海量数据的可靠存储和高速计算。Hadoop作为一款比较成熟的开源云计算框架，以其高效、可扩展、低成本等优点在数据挖掘的相关领域得到了广泛应用。基于此，本文将Hadoop与典型的数据挖掘系统进行整合，并选择了新的数据挖掘系统的算法模块部分中应用较为广泛的Apriori算法进行改进，以提高其在处理海量数据时的效率。方法本文采用的研究方法包括：文献研究法，结构化方法，实例分析法和对比分析法。文献研究法可以了解相关研究的现状，还为本文的研究提供理论参考；结构化方法是系统分析常用的方法，对基于Hadoop的云数据挖掘系统架构的分析具有指导意义；通过实例分析法阐述了传统Apriori算法的执行流程并论证了改进算法的可行性；通过对比分析法，分析了改进算法的优势。结果（1）结合典型的数据挖掘系统架构，将其与Hadoop进行整合，提出了基于Hadoop的数据挖掘系统架构，并对各个功能模块进行了简要阐述。（2）在对Apriori算法进行了详细阐述的基础上，针对其在处理海量数据时存在的瓶颈，利用MapReduce编程模式，本文提出了基于数据库划分的并行化改进的思想。通过对改进算法的详细阐述和设计，结合实例论证了改进算法的可行性，并对改进算法进行了分析。（3）通过实例分析，得到改进算法具有更高的效率,降低了时间复杂度和空间复杂度。结论（1）云计算给数据挖掘算法的改进带来了新的方式，云数据挖掘将成为未来的研究趋势。（2）本文的研究具有一定的意义，它为数据挖掘其它算法的改进提供了参考。越来越多的算法将被并行化移植到Hadoop云数据挖掘平台。

引用

页数：79

共 38 条

[1]

基于MapReduce的频繁项集挖掘方法 [J].