基于Spark的Apriori算法的改进

被引:52
作者
牛海玲
鲁慧民
刘振杰
机构
[1] 长春工业大学计算机科学与工程学院
关键词
Apriori; Spark; 矩阵; 局部剪枝; 全局剪枝;
D O I
10.16163/j.cnki.22-1123/n.2016.01.018
中图分类号
TP311.13 [];
学科分类号
摘要
基于Spark大数据框架,将传统Apriori算法进行并行化处理,提出了一种改进的并行化AMRDD算法,使Apriori算法能够适用于大数据关联规则的挖掘.该算法利用Spark基于内存计算的抽象对象存储频繁项集,通过引入矩阵概念减少扫描事务数据库的次数,应用局部剪枝和全局剪枝方法缩减生成候选频繁项集的数量.通过搭建Spark平台实现该算法,并与传统Apriori算法和基于Hadoop的Apriori算法进行性能上的比较.结果表明,该算法能够较大程度地提高大数据关联规则挖掘的效率.
引用
收藏
页码:84 / 89
页数:6
相关论文
共 6 条
[1]
基于云平台的并行关联规则挖掘算法研究 [D]. 
毛卫俊 .
华东理工大学,
2014
[2]
云计算环境下关联规则算法的研究 [D]. 
杨新月 .
电子科技大学,
2011
[3]
引入自检策略的进化K-means算法 [J].
宋天勇 ;
赵辉 ;
李万龙 ;
王璐 ;
田世元 .
东北师大学报(自然科学版), 2014, 46 (03) :59-63
[4]
基于LDA-wSVM模型的文本分类研究 [J].
李锋刚 ;
梁钰 ;
GAO Xiaozhi ;
ZENGER Kai .
计算机应用研究, 2015, 32 (01) :21-25
[5]
基于垂直频繁模式树带有负载均衡的分布关联规则挖掘算法 [J].
冯勇 ;
尹洁娜 ;
徐红艳 .
计算机应用, 2014, 34 (02) :396-400
[6]
基于频繁概念直乘分布的全局闭频繁项集挖掘算法 [J].
柴玉梅 ;
张卓 ;
王黎明 .
计算机学报, 2012, 35 (05) :990-1001