一种基于MapReduce的并行FP-growth算法

被引:62
作者
杨勇
王伟
机构
[1] 重庆邮电大学计算机科学与技术研究所
关键词
Hadoop; Mapreduce; FP-growth; 数据挖掘; 云计算; 关联规则;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
FP-growth算法是不产生候选集的关联规则挖掘算法,在许多领域中具有很高的实际应用价值。然而经典的FP-growth算法是内存驻留算法,只能处理小数据集,在面对海量数据集时显得无能为力。对经典FP-growth算法中FP-tree的结构和挖掘过程进行了改进,分析了FP-tree单路径和多路径的不同挖掘方法,提出了一个剪枝策略,在挖掘过程中减少了部分分支的迭代次数。然后利用云计算的MapReduce编程技术,对改进的FP-growth算法的各个步骤并行化。实验结果表明改进的算法在处理不同的数据集时有一定的优势,然后经过MapReduce模型并行化后,提高了对海量数据的处理能力和效率,并且具有较好的加速比和良好的扩展性。
引用
收藏
页码:651 / 657+670 +670
页数:8
相关论文
共 4 条
[1]
数据挖掘.[M].(加)JiaweiHan;(加)MichelineKamber著;范明;孟小峰等译;.机械工业出版社.2001,
[2]
大数据场景下的云存储技术与应用 [J].
陈杰 .
中兴通讯技术, 2012, 18 (06) :47-51
[3]
Integration of IoT and DRAGON-lab in cloud environment.[J]..The Journal of China Universities of Posts and Telecommunications.2012, 02
[4]
分布式序列模式发现算法的研究 [J].
邹翔 ;
张巍 ;
刘洋 ;
蔡庆生 .
软件学报, 2005, (07) :1262-1269