基于Spark的并行Eclat算法

被引：27

作者：

冯兴杰 ^{[1
,2
]}

潘轩 ^{[1
]}

机构：

[1] 中国民航大学计算机科学与技术学院

[2] 中国民航大学信息网络中心

来源：

计算机应用研究 | 2019年 / 36卷 / 01期

关键词：

关联规则挖掘; 大数据; Spark; 投影树; 并行化;

D O I：

10.19734/j.issn.1001-3695.2017.07.0695

中图分类号：

TP311.13 [];

学科分类号：

摘要：

通过对Spark大数据平台以及Eclat算法的深入分析,提出了基于Spark的Eclat算法(即SPEclat)。针对串行算法在处理大规模数据时出现的不足,该方法在多方面进行改进:为减少候选项集支持度计数带来的损耗,改变了数据的存储方式;将数据按前缀进行分组,并划分到不同的计算节点,压缩数据的搜索空间,实现并行化计算。最终将算法结合Spark云计算平台的优势加以实现。实验表明该算法可在处理海量数据集时高效运行,并且在面对数据量大规模增长的情况下具备良好的可扩展性。

引用

页码：18 / 21

页数：4

共 10 条

[1]

基于Spark的并行频繁模式挖掘算法 [J].