基于MapReduce化的数据聚类算法的研究、设计与应用

被引:0
作者
孙雨冰
机构
[1] 华东理工大学
关键词
聚类算法; Hadoop; MapReduce; 云计算; 并行处理;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
聚类算法一直是数据挖掘中倍受关注的研究方向,它能够找出数据集中特殊的分布结构,而无需任何先验知识。近年随着网络技术及工业产业现代化发展,海量级的数据迅速出现。在经典算法逐渐无法应付的情况下,各种分布式平台出现,而算法则成为热门的研究方向。 本文首先综述了过去的一些经典算法及当前的研究改进,还有一些近年提出的聚类算法,提供了很多新的视角。随后将四种聚类挖掘算法MapReduce化,并在Google开发的分布式平台Hadoop上运行。 k-means算法为许多其他算法的辅助基础,但是其本身的许多缺陷还是无法避免,采用并行化后的k-means++算法后可以有效避免局部解的干扰。 DBScan是基于密度的经典算法之一,从点的空间结构考虑分割数据,并通过重叠的覆盖取代原算法得到聚类结果。 近邻传播算法基于对相似矩阵的处理,逐步迭代到收敛结果,并行化这一算法意味着可以处理高维大规模数据的相似矩阵。 谱聚类是较新的一种研究方向,通过对称相似矩阵特征空间将数据空间降维,然后借助k-means完成聚类结果,并行化这个过程同时也提出了计算特征向量的并行化方法。 本文最后通过实验和理论验证这些算法的可行性,同时证明借助Hadoop可以应用于普通计算机的特点,将大幅减少运算时间。
引用
收藏
页数:76
共 24 条
[1]
云计算和云数据管理技术 [J].
刘正伟 ;
文中领 ;
张海涛 .
计算机研究与发展, 2012, 49(S1) (S1) :26-31
[2]
基于近邻传播算法的半监督聚类 [J].
肖宇 ;
于剑 .
软件学报, 2008, (11) :2803-2813
[3]
聚类算法研究 [J].
孙吉贵 ;
刘杰 ;
赵连宇 .
软件学报, 2008, (01) :48-61
[4]
基于特征加权的模糊聚类新算法 [J].
李洁 ;
高新波 ;
焦李成 .
电子学报, 2006, (01) :89-92
[5]
大型矩阵特征值问题并行计算研究概况 [J].
李晓梅 ;
罗晓广 .
指挥技术学院学报, 2001, (03) :1-5
[6]
Top 10 algorithms in data mining.[J].Xindong Wu;Vipin Kumar;J. Ross Quinlan;Joydeep Ghosh;Qiang Yang;Hiroshi Motoda;Geoffrey J. McLachlan;Angus Ng;Bing Liu;Philip S. Yu;Zhi-Hua Zhou;Michael Steinbach;David J. Hand;Dan Steinberg.Knowledge and Information Systems.2009, 1
[7]
Rough clustering of sequential data [J].
Kumar, Pradeep ;
Krishna, P. Radha ;
Bapi, Raju. S. ;
De, Supriya Kumar .
DATA & KNOWLEDGE ENGINEERING, 2007, 63 (02) :183-199
[8]
Investigating diversity of clustering methods: An empirical comparison [J].
Gelbard, Roy ;
Goldman, Orit ;
Spiegler, Israel .
DATA & KNOWLEDGE ENGINEERING, 2007, 63 (01) :155-166
[9]
Clustering by passing messages between data points [J].
Frey, Brendan J. ;
Dueck, Delbert .
SCIENCE, 2007, 315 (5814) :972-976
[10]
A cluster validity framework for genome expression data [J].
Azuaje, F .
BIOINFORMATICS, 2002, 18 (02) :319-320