云环境下基于数据流的k-means聚类算法

被引:12
作者
王飞
秦小麟
刘亮
沈尧
机构
[1] 南京航空航天大学计算机科学与技术学院
基金
高等学校博士学科点专项科研基金;
关键词
k-means; MapReduce; 计算框架; 数据流;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
k-means算法是一种最常用的基于划分的聚类算法。传统的集中式k-means算法已不能适应当前呈爆炸式增长的数据规模,设计分布式k-means算法成为了目前亟需解决的问题。现有分布式k-means算法基于MapReduce计算框架且没有考虑初始聚类中心的影响。由于每个MapReduce任务均需要读写分布式文件系统,导致MapReduce不能有效表达多个任务之间的依赖关系,因此提出了一种基于数据流的计算框架,该框架建立在MapReduce之上,将数据处理过程按照数据流图建模。在该框架的基础上,提出了一种高效的k-means算法,它采用基于多次采样的初始聚类中心选取方法来实现负载均衡及减少迭代次数。实验结果表明,该算法的可扩展性较好,且效率比现有算法高。
引用
收藏
页码:235 / 239+265 +265
页数:6
相关论文
共 5 条
[1]   k-means聚类算法的MapReduce并行化实现 [J].
江小平 ;
李成华 ;
向文 ;
张新访 ;
颜海涛 .
华中科技大学学报(自然科学版), 2011, 39 (S1) :120-124
[2]   初始中心优化的K-Means聚类算法 [J].
李飞 ;
薛彬 ;
黄亚楼 .
计算机科学, 2002, (07) :94-96
[3]  
Undersampled $$K$$ K -means approach for handling imbalanced distributed data[J] . N. Santhosh Kumar,K. Nageswara Rao,A. Govardhan,K. Sudheer Reddy,Ali Mirza Mahmood.Progress in Artificial Intelligence . 2014 (1)
[4]  
Clustering high-dimensional data[J] . Hans-Peter Kriegel,Peer Kr?ger,Arthur Zimek.ACM Transactions on Knowledge Discovery from Data (TKDD) . 2009 (1)
[5]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2008 (1)