面向大规模数据的快速并行聚类划分算法研究

被引:55
作者
牛新征
佘堃
机构
[1] 电子科技大学计算机科学与工程学院
关键词
云计算; K-Means; 大规模数据; MPI; Hadoop;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
随着聚类分析中处理数据量的急剧增加,面对大规模数据,传统K-Means聚类算法面临着巨大挑战。为了提高传统K-Means聚类算法的效率,针对已有基于MPI的并行K-Means聚类算法和基于Hadoop的分布式K-Means云聚类算法,从聚心初始化和通信模式等入手,提出了改进思路和具体实现。实验结果表明,所提算法能大大减少通信量和计算量,具有较高的执行效率。研究结果可以为以后设计更好的大规模数据快速并行聚类划分算法提供研究依据。
引用
收藏
页码:134 / 137+151 +151
页数:5
相关论文
共 6 条
[1]
On distributing the clustering process [J].
Boutsinas, B ;
Gnardellis, T .
PATTERN RECOGNITION LETTERS, 2002, 23 (08) :999-1008
[2]
基于垂直数据分布的大型稠密数据库快速关联规则挖掘算法 [J].
崔建 ;
李强 ;
杨龙坡 .
计算机科学, 2011, 38 (04) :216-220
[3]
数据密集型计算编程模型研究进展 [J].
王鹏 ;
孟丹 ;
詹剑锋 ;
涂碧波 .
计算机研究与发展, 2010, 47 (11) :1993-2002
[4]
云计算环境下面向数据密集型应用的数据布局策略与方法 [J].
郑湃 ;
崔立真 ;
王海洋 ;
徐猛 .
计算机学报, 2010, 33 (08) :1472-1480
[5]
基于HADOOP的数据挖掘研究 [D]. 
杨宸铸 .
重庆大学,
2010
[6]
并行K-Means聚类方法及其在简历数据中的应用研究 [D]. 
冯丽娜 .
云南大学,
2010