基于Spark框架的并行聚类算法

被引:10
作者
李淋淋 [1 ]
倪建成 [2 ]
曹博 [1 ]
于苹苹 [1 ]
姚彬修 [1 ]
机构
[1] 曲阜师范大学信息科学与工程学院
[2] 曲阜师范大学软件学院
关键词
K-means; Spark; 大数据; Hadoop; MapReduce;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
针对传统K-means算法在处理海量数据时存在距离计算瓶颈及因迭代计算次数增加导致内存不足的问题,提出了一种基于Spark框架的SBTICK-means(Spark Based Triangle Inequality Canopy-K-means)并行聚类算法。为了更好地解决K值选取的盲目性和随机性的问题,该算法利用Canopy进行预处理得到初始聚类中心点和K值;在K-means迭代计算过程中进一步利用距离三角不等式定理减少冗余计算、加快聚类速度,结合Spark框架实现算法的并行化,充分利用Spark的内存计算优势提高数据的处理速度,缩减算法的整体运行时间。实验结果表明,SBTICK-means算法在保证准确率的同时大大提高了聚类效率,与传统的K-means算法、Canopy-K-means算法和基于MapReduce框架下的该算法相比,在加速比、扩展比以及运行速率上都有一定的提高,从而更适合应用于海量数据的聚类研究。
引用
收藏
页码:97 / 101
页数:5
相关论文
共 10 条
[1]
基于云计算平台的聚类算法 [J].
孟海东 ;
任敬佩 .
计算机工程与设计, 2015, 36 (11) :2990-2994
[2]
针对多聚类中心大数据集的加速K-means聚类算法 [J].
张顺龙 ;
库涛 ;
周浩 .
计算机应用研究, 2016, 33 (02) :413-416
[3]
基于MapReduce的Kmeans并行算法及改进 [J].
衣治安 ;
王月 .
计算机系统应用, 2015, 24 (06) :188-192
[4]
基于MapReduce的随机抽样K-means算法 [J].
王永贵 ;
武超 ;
戴伟 .
计算机工程与应用 , 2016, (08) :74-79
[5]
基于分布式文件系统HDFS的节能算法 [J].
廖彬 ;
于炯 ;
张陶 ;
杨兴耀 .
计算机学报, 2013, 36 (05) :1047-1064
[6]
一种基于Hadoop云计算平台的聚类算法优化的研究 [J].
张石磊 ;
武装 .
计算机科学, 2012, 39(S2) (S2) :115-118
[7]
基于MapReduce的Canopy-Kmeans改进算法 [J].
毛典辉 .
计算机工程与应用, 2012, 48 (27) :22-26+68
[8]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[9]
基于分布式平台Spark和YARN的数据挖掘算法的并行化研究 [D]. 
梁彦 .
中山大学,
2014
[10]
Data clustering.[J].A. K. Jain;M. N. Murty;P. J. Flynn.ACM Computing Surveys (CSUR).1999, 3