基于Spark的Apriori算法的改进

被引：52

作者：

牛海玲

鲁慧民

刘振杰

机构：

[1] 长春工业大学计算机科学与工程学院

来源：

东北师大学报(自然科学版) | 2016年 / 48卷 / 01期

关键词：

Apriori; Spark; 矩阵; 局部剪枝; 全局剪枝;

D O I：

10.16163/j.cnki.22-1123/n.2016.01.018

中图分类号：

TP311.13 [];

学科分类号：

摘要：

基于Spark大数据框架,将传统Apriori算法进行并行化处理,提出了一种改进的并行化AMRDD算法,使Apriori算法能够适用于大数据关联规则的挖掘.该算法利用Spark基于内存计算的抽象对象存储频繁项集,通过引入矩阵概念减少扫描事务数据库的次数,应用局部剪枝和全局剪枝方法缩减生成候选频繁项集的数量.通过搭建Spark平台实现该算法,并与传统Apriori算法和基于Hadoop的Apriori算法进行性能上的比较.结果表明,该算法能够较大程度地提高大数据关联规则挖掘的效率.

引用

页码：84 / 89

页数：6

共 6 条

[1]

基于云平台的并行关联规则挖掘算法研究 [D].