基于Spark的并行Eclat算法

被引:27
作者
冯兴杰 [1 ,2 ]
潘轩 [1 ]
机构
[1] 中国民航大学计算机科学与技术学院
[2] 中国民航大学信息网络中心
关键词
关联规则挖掘; 大数据; Spark; 投影树; 并行化;
D O I
10.19734/j.issn.1001-3695.2017.07.0695
中图分类号
TP311.13 [];
学科分类号
摘要
通过对Spark大数据平台以及Eclat算法的深入分析,提出了基于Spark的Eclat算法(即SPEclat)。针对串行算法在处理大规模数据时出现的不足,该方法在多方面进行改进:为减少候选项集支持度计数带来的损耗,改变了数据的存储方式;将数据按前缀进行分组,并划分到不同的计算节点,压缩数据的搜索空间,实现并行化计算。最终将算法结合Spark云计算平台的优势加以实现。实验表明该算法可在处理海量数据集时高效运行,并且在面对数据量大规模增长的情况下具备良好的可扩展性。
引用
收藏
页码:18 / 21
页数:4
相关论文
共 10 条
[1]
基于Spark的并行频繁模式挖掘算法 [J].
曹博 ;
倪建成 ;
李淋淋 ;
于苹苹 ;
姚彬修 .
计算机工程与应用, 2016, 52 (20) :86-91
[2]
分布式并行化数据流频繁模式挖掘算法 [J].
马可 ;
李玲娟 ;
孙杜靖 .
计算机技术与发展, 2016, 26 (07) :75-79
[3]
分布式频繁项集挖掘算法 [J].
陈明洁 .
计算机应用与软件, 2015, 32 (10) :63-66
[4]
并行挖掘频繁项目集新算法——MREclat [J].
章志刚 ;
吉根林 ;
唐梦梦 .
计算机应用, 2014, 34 (08) :2175-2178
[5]
基于MapReduce的SON算法实现 [J].
郭进伟 ;
皮建勇 .
计算机应用, 2014, 34(S1) (S1) :100-102+106
[6]
基于MapReduce的海量数据挖掘技术研究 [J].
李伟卫 ;
赵航 ;
张阳 ;
王勇 .
计算机工程与应用, 2013, 49 (20) :112-117
[7]
一种基于后缀项表的并行闭频繁项集挖掘算法 [J].
唐颖峰 ;
陈世平 .
计算机应用研究, 2014, 31 (02) :373-377
[8]
Parallel algorithms for discovery of association rules [J].
Zaki, MJ ;
Parthasarathy, S ;
Ogihara, M ;
Li, W .
DATA MINING AND KNOWLEDGE DISCOVERY, 1997, 1 (04) :343-373
[9]
数据挖掘:概念与技术.[M].(美) 韩家炜等; 著.机械工业出版社.2006,
[10]
基于SPARK的海量数据频繁模式挖掘算法研究 [D]. 
赵焱德 .
哈尔滨工业大学,
2016