k-means聚类算法的MapReduce并行化实现

被引：76

作者：

江小平 ^{[1
]}

李成华 ^{[1
]}

向文 ^{[2
]}

张新访 ^{[2
]}

颜海涛 ^{[3
]}

机构：

[1] 中南民族大学电子信息工程学院

[2] 华中科技大学计算机科学与技术学院

[3] 中国移动通信集团湖北有限公司业务支撑中心

来源：

华中科技大学学报(自然科学版) | 2011年 / 39卷 / S1期

基金：

中央高校基本科研业务费专项资金资助;

关键词：

云计算; 并行计算; MapReduce模型; 数据挖掘; k-means聚类算法;

D O I：

10.13245/j.hust.2011.s1.031

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.

引用

页码：120 / 124

页数：5