基于Hadoop的仿射传播大数据聚类分析方法

被引:8
作者
唐东明
机构
[1] 西南交通大学信息化研究院
基金
中央高校基本科研业务费专项资金资助;
关键词
仿射传播聚类; Map Reduce; Hadoop; 键值存储; 大数据;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/Hello World CN/Map Reduce APC上下载。
引用
收藏
页码:29 / 34
页数:6
相关论文
共 9 条
[1]   基于MapReduce的分布式近邻传播聚类算法 [J].
鲁伟明 ;
杜晨阳 ;
魏宝刚 ;
沈春辉 ;
叶振超 .
计算机研究与发展, 2012, (08) :1762-1772
[2]  
Optimizing radial basis function neural network based on rough sets and affinity propagation clustering algorithm[J]. Xin-zheng XU1, Shi-fei DING1,2, Zhong-zhi SHI2, Hong ZHU1 (1School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China) (2Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China).Journal of Zhejiang University-Science C(Computers & Electronics). 2012
[3]   基于PCA的仿射传播聚类算法 [J].
宋坤 ;
李丽娟 ;
赵英凯 .
计算机工程与应用, 2011, 47 (34) :212-214
[4]   HDCH:MapReduce平台上的音频数据聚类系统 [J].
廖松博 ;
何震瀛 .
计算机研究与发展 , 2011, (S3) :472-475
[5]   大数据分析——RDBMS与MapReduce的竞争与共生 [J].
覃雄派 ;
王会举 ;
杜小勇 ;
王珊 .
软件学报, 2012, 23 (01) :32-45
[6]   聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[7]  
Fast affinity propagation clustering: A multilevel approach[J] . Fanhua Shang,L.C. Jiao,Jiarong Shi,Fei Wang,Maoguo Gong.Pattern Recognition . 2011 (1)
[8]  
Data clustering[J] . A. K. Jain,M. N. Murty,P. J. Flynn.ACM Computing Surveys (CSUR) . 1999 (3)
[9]  
Map reduce:simplified data processing on large clusters .2 Dean J,Ghemawat S. Operating Systems Deseign and Implementation . 2004