分布式频繁项集挖掘算法

被引:9
作者
陈明洁
机构
[1] 上海市公安局科技处
关键词
频繁项集挖掘; 分布式算法; Spark; MapReduce;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
传统的频繁项集挖掘方法具有一定的局限性。Apriori算法需要重复扫描输入数据,导致很高的I/O负载,算法性能不高;Fp-growth算法需要在内存中建立Fp-tree并根据Fp-tree挖掘频繁项集,导致算法受到计算机的内存限制。在大数据时代,由于挖掘数据规模十分巨大,更加凸显这些传统算法的局限性。对此,一方面改进传统的频繁项集挖掘算法,另一方面基于Spark框架实现分布式频繁项集挖掘算法(FIMBS)。实验结果表明,该算法相比基于MapReduce框架的关联规则算法具有显著的优势。
引用
收藏
页码:63 / 66
页数:4
相关论文
共 1 条
[1]
基于布尔矩阵和MapReduce的FP-Growth算法 [J].
陈兴蜀 ;
张帅 ;
童浩 ;
崔晓靖 .
华南理工大学学报(自然科学版), 2014, 42 (01) :135-141