基于MapReduce的Kmeans并行算法及改进

被引:11
作者
衣治安
王月
机构
[1] 东北石油大学计算机与信息技术学院
关键词
Map Reduce; k-means算法; canopy算法; 并行计算; 聚类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
针对传统kmeans聚类算法在处理海量数据时所面临的内存不足、运算速度慢等问题,提出了一种基于Map Reduce的Kmeans并行算法,同时为了改善kmeans算法在初始值确定方面的盲目性,采用canopy算法进行改进.实验结果表明,基于Map Reduce的Kmeans并行算法和改进后的算法均能产生良好的聚类效果,不仅提高了聚类质量,而且在处理大数据集方面,改进后的算法的还能够得到趋近于线性的加速比.
引用
收藏
页码:188 / 192
页数:5
相关论文
共 6 条
[1]
K-means算法研究综述 [J].
吴夙慧 ;
成颖 ;
郑彦宁 ;
潘云涛 .
现代图书情报技术, 2011, (05) :28-35
[2]
MapReduce:新型的分布式并行计算编程模型 [J].
李成华 ;
张新访 ;
金海 ;
向文 .
计算机工程与科学, 2011, 33 (03) :129-135
[3]
基于MapReduce模型的并行科学计算 [J].
郑启龙 ;
房明 ;
汪胜 ;
王向前 ;
吴晓伟 ;
王昊 .
微电子学与计算机, 2009, 26 (08) :13-17
[4]
一种改进的MapReduce并行编程模型 [J].
周锋 ;
李旭伟 .
科协论坛(下半月), 2009, (02) :65-66
[5]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[6]
Note on: An improved algorithm for the packing of unequal circles within a larger containing circle [J].
Huang, Wenqi ;
Chen, Mao .
COMPUTERS & INDUSTRIAL ENGINEERING, 2006, 50 (03) :338-344