分布式并行化数据流频繁模式挖掘算法

被引:10
作者
马可
李玲娟
孙杜靖
机构
[1] 南京邮电大学计算机学院
关键词
数据流; 频繁模式; 分布式并行化; Storm;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
为了提高数据流频繁模式挖掘的效率,文中基于经典的数据流频繁模式挖掘算法FP-Stream和分布式并行计算原理,设计了一种分布式并行化数据流频繁模式挖掘算法—DPFP-Stream(Distributed Parallel Algorithm of Mining Frequent Pattern on Data Stream)。该算法将建立频繁模式树的任务分为local和global两部分,并设置了参数"当前时间";将到达的流数据平均分配到多个不同的local节点,各local节点使用FP-Growth算法产生该单位时间内本节点的候选频繁项集,并按照单位时间将候选频繁项集及其支持度计数打包发送至global节点;global节点按"当前时间"合并各local节点的中间结果并更新模式树Pattern-Tree。在分布式数据流计算平台Storm上进行的算法实现和性能测试结果表明,DPFP-Stream算法的计算效率能够随着local节点或local bolt线程的增加而提高,适用于高效挖掘数据流中的频繁模式。
引用
收藏
页码:75 / 79
页数:5
相关论文
共 7 条
[1]
数据流环境中关联规则挖掘技术的研究 [D]. 
唐耀红 .
北京交通大学,
2012
[2]
Mining data streams.[J].Mohamed Medhat Gaber;Arkady Zaslavsky;Shonali Krishnaswamy.ACM SIGMOD Record.2005, 2
[3]
大数据流式计算:关键技术及系统实例 [J].
孙大为 ;
张广艳 ;
郑纬民 .
软件学报, 2014, 25 (04) :839-862
[4]
挖掘数据流任意滑动时间窗口内频繁模式 [J].
李国徽 ;
陈辉 .
软件学报, 2008, (10) :2585-2596
[5]
数据流中的频繁模式挖掘 [J].
程转流 ;
王本年 .
计算机技术与发展, 2007, (12) :53-55+59
[6]
流数据挖掘综述 [J].
孙玉芬 ;
卢炎生 .
计算机科学, 2007, (01) :1-5+11
[7]
挖掘数据流中的频繁模式 [J].
刘学军 ;
徐宏炳 ;
董逸生 ;
王永利 ;
钱江波 .
计算机研究与发展, 2005, (12) :2192-2198