基于Hadoop平台下的Canopy-Kmeans高效算法

被引：80

作者：

赵庆

机构：

[1] 西安电子科技大学电子工程学院

来源：

电子科技 | 2014年 / 27卷 / 02期

关键词：

Hadoop; MapReduce; Canopy-Kmeans算法; 聚类;

D O I：

暂无

中图分类号：

TP301.6 [算法理论];

学科分类号：

080201 [机械制造及其自动化];

摘要：

介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。

引用

页码：29 / 31

页数：3

共 6 条

[1]

一种改进初始聚类中心选择的K-means算法 [J].