一种K-means改进算法的并行化实现与应用

被引:109
作者
李晓瑜 [1 ]
俞丽颖 [1 ]
雷航 [1 ]
唐雪飞 [1 ,2 ]
机构
[1] 电子科技大学信息与软件工程学院
[2] 成都康赛信息技术有限公司
关键词
canopy算法; Hadoop; MapReduce; 并行K-means; 文本聚类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
摘要
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。
引用
收藏
页码:61 / 68
页数:8
相关论文
共 15 条
[1]
云环境下基于Canopy聚类的FCM算法研究 [J].
余长俊 ;
张燃 .
计算机科学, 2014, 41(S2) (S2) :316-319
[2]
MapReduce编程模型、方法及应用综述 [J].
丁智 ;
林治 .
电脑知识与技术, 2014, 10 (30) :7060-7064
[3]
基于Hadoop平台下的Canopy-Kmeans高效算法 [J].
赵庆 .
电子科技, 2014, 27 (02) :29-31
[4]
最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[5]
基于Canopy的K-means多核算法 [J].
邱荣太 .
微计算机信息, 2012, 28 (09) :486-487+233
[6]
K均值聚类算法在银行客户细分中的研究 [J].
樊宁 .
计算机仿真, 2011, 28 (03) :369-372
[7]
一种改进的k-means初始聚类中心选取算法 [J].
韩凌波 ;
王强 ;
蒋正锋 ;
郝志强 .
计算机工程与应用, 2010, 46 (17) :150-152
[8]
新的K-均值算法最佳聚类数确定方法 [J].
周世兵 ;
徐振源 ;
唐旭清 .
计算机工程与应用 , 2010, (16) :27-31
[9]
基于最优划分的K-Means初始聚类中心选取算法 [J].
张健沛 ;
杨悦 ;
杨静 ;
张泽宝 .
系统仿真学报, 2009, (09) :2586-2590
[10]
一种基于K-Means局部最优性的高效聚类算法 [J].
雷小锋 ;
谢昆青 ;
林帆 ;
夏征义 .
软件学报, 2008, (07) :1683-1692