基于MapReduce的分布式近邻传播聚类算法

被引:53
作者
鲁伟明
杜晨阳
魏宝刚
沈春辉
叶振超
机构
[1] 浙江大学计算机科学与技术学院
基金
国家自然科学基金重大研究计划; 中国博士后科学基金;
关键词
近邻传播聚类; 分布式计算; MapReduce; 数据划分; 聚类融合;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间.
引用
收藏
页码:1762 / 1772
页数:11
相关论文
共 5 条
[1]   Local and global approaches of affinity propagation clustering for large scale data [J].
Dingyin XIA Fei WU Xuqing ZHANG Yueting ZHUANG School of Computer Science and Technology Zhejiang University Hangzhou China .
Journal of Zhejiang University(Science A:An International Applied Physics & Engineering Journal), 2008, (10) :1373-1381
[2]   基于向量内积不等式的分布式k均值聚类算法 [J].
倪巍伟 ;
陆介平 ;
孙志挥 .
计算机研究与发展, 2005, (09) :1493-1497
[3]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2008 (1)
[4]  
Data clustering[J] . A. K. Jain,M. N. Murty,P. J. Flynn.ACM Computing Surveys (CSUR) . 1999 (3)
[5]  
BIRCH: A New Data Clustering Algorithm and Its Applications[J] . Tian Zhang,Raghu Ramakrishnan,Miron Livny.Data Min. Knowl. Discov. . 1997 (2)