面向大规模数据的快速并行聚类划分算法研究

被引：55

作者：

牛新征

佘堃

机构：

[1] 电子科技大学计算机科学与工程学院

来源：

计算机科学 | 2012年 / 39卷 / 01期

关键词：

云计算; K-Means; 大规模数据; MPI; Hadoop;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

摘要：

随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。

引用

页码：134 / 137+151 +151

页数：5

共 6 条

[1]

On distributing the clustering process [J].