基于MapReduce的并行聚类算法设计与实现

被引:9
作者
刘向东 [1 ]
刘奎 [1 ]
胡飞翔 [2 ]
王翠荣 [1 ]
机构
[1] 东北大学秦皇岛分校计算机与通信工程学院
[2] 东北大学信息工程学院
关键词
大数据; 聚类算法; 云平台; 并行处理; MapReduce;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。
引用
收藏
页码:251 / 256
页数:6
相关论文
共 16 条
[1]  
基于密度的分布式聚类算法的研究[D]. 毛锐.吉林大学 2012
[2]   一种基于“基因表达谱”的并行聚类算法 [J].
郎显宇 ;
陆忠华 ;
迟学斌 .
计算机学报, 2007, (02) :311-316
[3]   一种多蚁群聚类组合算法研究及其应用 [J].
魏先民 .
计算机应用与软件, 2010, 27 (12) :205-207+229
[4]   并行化的情感分类算法的研究 [J].
余永红 ;
向小军 ;
商琳 .
计算机科学, 2013, 40 (06) :206-210
[5]   基于MapReduce的分布式近邻传播聚类算法 [J].
鲁伟明 ;
杜晨阳 ;
魏宝刚 ;
沈春辉 ;
叶振超 .
计算机研究与发展, 2012, (08) :1762-1772
[6]   KBAC:一种基于K-means的自适应聚类 [J].
徐晓旻 ;
肖仰华 .
小型微型计算机系统, 2012, 33 (10) :2268-2272
[7]   基于MapReduce的气象数据并行PK-means算法 [J].
薛胜军 ;
潘吴斌 .
武汉理工大学学报, 2012, 34 (12) :139-142
[8]   基于分布式数据挖掘方法的研究与应用 [J].
汪丽 ;
张露 .
武汉理工大学学报(信息与管理工程版), 2013, 35 (01) :40-43
[9]  
Open Stack. http://openstack.org . 2013
[10]  
Parallel ISODATA Clustering of Remote SensingImages Based on MapReduce. Li B,Zhao H,Lv Z. Proc.of Cyber-Enabled Distributed Computing and Knowledge Discovery . 2010