k-means聚类算法的MapReduce并行化实现

被引:76
作者
江小平 [1 ]
李成华 [1 ]
向文 [2 ]
张新访 [2 ]
颜海涛 [3 ]
机构
[1] 中南民族大学电子信息工程学院
[2] 华中科技大学计算机科学与技术学院
[3] 中国移动通信集团湖北有限公司业务支撑中心
基金
中央高校基本科研业务费专项资金资助;
关键词
云计算; 并行计算; MapReduce模型; 数据挖掘; k-means聚类算法;
D O I
10.13245/j.hust.2011.s1.031
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.
引用
收藏
页码:120 / 124
页数:5
相关论文
共 3 条
[1]   云计算及其关键技术 [J].
陈全 ;
邓倩妮 .
计算机应用, 2009, 29 (09) :2562-2567
[2]  
云计算:系统实例与研究现状[J]. 陈康,郑纬民.软件学报. 2009(05)
[3]   WEKA数据挖掘平台及其二次开发 [J].
陈慧萍 ;
林莉莉 ;
王建东 ;
苗新蕊 .
计算机工程与应用 , 2008, (19) :76-79