基于Spark平台的K-means聚类算法改进及并行化实现

被引:32
作者
吴哲夫
张彤
肖鹰
机构
[1] 浙江工业大学信息工程学院
基金
浙江省自然科学基金;
关键词
K-means; 聚类; Spark; 并行化;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
针对K-means算法在数据聚类过程中初始值选取的随机性问题,基于非均匀采样原则对该算法进行改进。同时,针对聚类算法并行化的需求,基于Spark平台对改进算法进行了并行化实现。单机串行处理和集群并行化实验证明了该改进算法在处理海量数据集时具有更高的准确性和稳定性,且在Spark平台上的并行化实现具有良好的加速比和可扩展性,从而表明该算法能在实际的海量数据处理中高效运行。
引用
收藏
页码:44 / 50
页数:7
相关论文
共 4 条
[1]
[2]
基于MapReduce的Canopy-Kmeans改进算法 [J].
毛典辉 .
计算机工程与应用, 2012, 48 (27) :22-26+68
[3]
Top 10 algorithms in data mining.[J].Xindong Wu;Vipin Kumar;J. Ross Quinlan;Joydeep Ghosh;Qiang Yang;Hiroshi Motoda;Geoffrey J. McLachlan;Angus Ng;Bing Liu;Philip S. Yu;Zhi-Hua Zhou;Michael Steinbach;David J. Hand;Dan Steinberg.Knowledge and Information Systems.2009, 1
[4]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1