基于MapReduce的SON算法实现

被引:7
作者
郭进伟 [1 ,2 ]
皮建勇 [1 ,2 ]
机构
[1] 贵州大学计算机科学与技术学院
[2] 贵州大学云计算与物联网研究中心
关键词
数据挖掘; 频繁项集; MapReduce; SON算法; Hadoop;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
在挖掘频繁项集的算法中,SON算法能够有效地降低CPU和I/O负载,但是SON算法在单节点上运行时仍然受限于内存和CPU;并且随着海量数据的来临,单节点也无法满足数据的存储。在深入研究SON算法的基础之上,提出了MapReduce编程模型实现SON算法的方法。算法的执行需要两轮MapReduce迭代,第一轮迭代求出局部频繁项集,第二轮迭代求出全局频繁项集。实验结果表明:SON算法采用MapReduce编程模型并行化后,部署在Hadoop集群上运行,随着分区数目的增加能够获取较好的加速比。
引用
收藏
页码:100 / 102+106 +106
页数:4
相关论文
共 12 条
[1]  
大数据[M]. 人民邮电出版社 , (美) 拉贾拉曼 (Rajaraman, 2012
[2]  
An Efficient Algorithm for Mining Association Rules in Large Databases. A. Savasere,E. Omiecinski,S. Navathe. Proceedings of the 21st International Conference on Very large Database . 1995
[3]   大数据分析——RDBMS与MapReduce的竞争与共生 [J].
覃雄派 ;
王会举 ;
杜小勇 ;
王珊 .
软件学报, 2012, 23 (01) :32-45
[4]   MapReduce并行编程模型研究综述 [J].
李建江 ;
崔健 ;
王聃 ;
严林 ;
黄义双 .
电子学报, 2011, 39 (11) :2635-2642
[5]  
Frequent Itemset Mining Dataset Repository. http://fimi.ua.ac.be/data . 2013
[6]  
DBMS reasearch at a croossroads:The Vienna update. M.Stonebraker,Ratrawal,U.Dayal,E.Neuhold,A.Reuter. Proc.1993 Int.Conf.Very Large Data Bas-es . 1993
[7]  
The Google file system. GHEMAWAT S,GOBIOFF H,LEUNG S-T. Proceedings of the 19th ACM Symposium on Operating Sys-tems Principles . 2003
[8]  
Mining frequent patterns without candidate generation. Jiawei Han,Jian Pei,Yiwen Yin. SIGMOD ’00: Proceedings of the 2000 ACM SIGMOD international conference on Management of data . 2000
[9]  
Mining sequential patterns. Agrawal R,Srikant R. Proceedings of the 11th International Conference on Data Engineering (ICDE’95) . 1995
[10]  
Fast Algorithms for Mining Association Rules. Agrawal R,Srikant R. Proceedings of the 20th International Conference on Very Large Databases(VLDB’94) . 1994