基于MapReduce的Canopy-Kmeans改进算法

被引:63
作者
毛典辉
机构
[1] 不详
[2] 北京工商大学计算机与信息工程学院
[3] 不详
关键词
Canopy-Kmeans算法; MapReduce; 分布式聚类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。
引用
收藏
页码:22 / 26+68 +68
页数:6
相关论文
共 7 条
  • [1] k-DmeansWM:一种基于P2P网络的分布式聚类算法
    李榴
    唐九阳
    葛斌
    肖卫东
    汤大权
    [J]. 计算机科学, 2010, 37 (01) : 39 - 41
  • [2] 一种基于改进K-means的文档聚类算法的实现研究
    岑咏华
    王晓蓉
    吉雍慧
    [J]. 现代图书情报技术, 2008, (12) : 73 - 79
  • [3] 一种改进的k-means文档聚类初值选择算法[J]. 刘远超,王晓龙,刘秉权.高技术通讯. 2006 (01)
  • [4] 基于MapReduce的聚类算法的并行化研究[D]. 李应安.中山大学. 2010
  • [5] Hadoop权威指南[M]. 清华大学出版社 , (美) 怀特 (White, 2010
  • [6] RACHET: An Efficient Cover-Based Merging of Clustering Hierarchies from Distributed Datasets[J] . Nagiza F. Samatova,George Ostrouchov,Al Geist,Anatoli V. Melechko.Distributed and Parallel Databases . 2002 (2)
  • [7] MapReduce:Simplied data processing on large clusters .2 Jeffrey Dean,Sanjay Ghemawat. Proceedings of the 6th Symposium on Operating System Design and Implementation . 2004