基于Hadoop平台下的Canopy-Kmeans高效算法

被引:80
作者
赵庆
机构
[1] 西安电子科技大学电子工程学院
关键词
Hadoop; MapReduce; Canopy-Kmeans算法; 聚类;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。
引用
收藏
页码:29 / 31
页数:3
相关论文
共 6 条
[1]
一种改进初始聚类中心选择的K-means算法 [J].
陈光平 ;
王文鹏 ;
黄俊 .
小型微型计算机系统, 2012, 33 (06) :1320-1323
[2]
一种优化初始中心点的K-means算法 [J].
汪中 ;
刘贵全 ;
陈恩红 .
模式识别与人工智能, 2009, 22 (02) :299-304
[3]
K-means算法的初始聚类中心的优化 [J].
赖玉霞 ;
刘建平 .
计算机工程与应用 , 2008, (10) :147-149
[4]
初始聚类中心优化的k-means算法 [J].
袁方 ;
周志勇 ;
宋鑫 .
计算机工程, 2007, (03) :65-66
[5]
一种改进的K-means算法 [J].
张玉芳 ;
毛嘉莉 ;
熊忠阳 .
计算机应用, 2003, (08) :31-33+60
[6]
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.清华大学出版社.2011,