一种基于MapReduce的改进k-means聚类算法研究

被引:5
作者
郭晨晨
朱红康
机构
[1] 山西师范大学数学与计算机科学学院
关键词
k-means; MapReduce; 两阶段; 单通道; 并行化; 加速比;
D O I
10.14081/j.cnki.hgdxb.2016.05.006
中图分类号
TP311.13 [];
学科分类号
摘要
传统k-means算法的聚类中心需要经过多次迭代运算才能最终稳定,而MapReduce计算框架下的k-means聚类算法在处理迭代运算时效率并不理想.针对上述问题,提出一种新的基于MapReduce的k-means聚类算法.该算法对传统k-means算法进行了改进,通过将k-means聚类问题转化为Map和Reduce两阶段的k-means++算法聚类问题,并将权值概念和单通道技术引入到传统k-means++算法中,提升了算法在MapReduce框架中的执行效率.实验分析表明,该方法较之传统方法具有更好的加速比和可扩展性.
引用
收藏
页码:35 / 43
页数:9
相关论文
共 2 条
[1]
High performance parallel k\documentclass[12pt]{minimal} \usepackage{amsmath} \usepackage{wasysym} \usepackage{amsfonts} \usepackage{amssymb} \usepackage{amsbsy} \usepackage{mathrsfs} \usepackage{upgreek} \setlength{\oddsidemargin}{-69pt} \begin{document}$$k$$\end{document}-means clustering for disk-resident datasets on multi-core CPUs [J].
Ali Hadian ;
Saeed Shahrivari .
The Journal of Supercomputing, 2014, 69 (2) :845-863
[2]
Scalable parallel programming with CUDA [J].
Nickolls, John ;
Buck, Ian ;
Garland, Michael ;
Skadron, Kevin .
Queue, 2008, 6 (02) :40-53