分布式频繁项集挖掘算法

被引：9

作者：

陈明洁

机构：

[1] 上海市公安局科技处

来源：

计算机应用与软件 | 2015年 / 32卷 / 10期

关键词：

频繁项集挖掘; 分布式算法; Spark; MapReduce;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

摘要：

传统的频繁项集挖掘方法具有一定的局限性。Apriori算法需要重复扫描输入数据,导致很高的I/O负载,算法性能不高;Fp-growth算法需要在内存中建立Fp-tree并根据Fp-tree挖掘频繁项集,导致算法受到计算机的内存限制。在大数据时代,由于挖掘数据规模十分巨大,更加凸显这些传统算法的局限性。对此,一方面改进传统的频繁项集挖掘算法,另一方面基于Spark框架实现分布式频繁项集挖掘算法(FIMBS)。实验结果表明,该算法相比基于MapReduce框架的关联规则算法具有显著的优势。

引用

页码：63 / 66

页数：4