基于MapReduce化的数据聚类算法的研究、设计与应用

被引：0

作者：

孙雨冰

机构：

[1] 华东理工大学

关键词：

聚类算法; Hadoop; MapReduce; 云计算; 并行处理;

D O I：

暂无

年度学位：

2013

学位类型：

硕士

导师：

刘江;

摘要：

聚类算法一直是数据挖掘中倍受关注的研究方向,它能够找出数据集中特殊的分布结构,而无需任何先验知识。近年随着网络技术及工业产业现代化发展,海量级的数据迅速出现。在经典算法逐渐无法应付的情况下,各种分布式平台出现,而算法则成为热门的研究方向。本文首先综述了过去的一些经典算法及当前的研究改进,还有一些近年提出的聚类算法,提供了很多新的视角。随后将四种聚类挖掘算法MapReduce化,并在Google开发的分布式平台Hadoop上运行。 k-means算法为许多其他算法的辅助基础,但是其本身的许多缺陷还是无法避免,采用并行化后的k-means++算法后可以有效避免局部解的干扰。 DBScan是基于密度的经典算法之一,从点的空间结构考虑分割数据,并通过重叠的覆盖取代原算法得到聚类结果。近邻传播算法基于对相似矩阵的处理,逐步迭代到收敛结果,并行化这一算法意味着可以处理高维大规模数据的相似矩阵。谱聚类是较新的一种研究方向,通过对称相似矩阵特征空间将数据空间降维,然后借助k-means完成聚类结果,并行化这个过程同时也提出了计算特征向量的并行化方法。本文最后通过实验和理论验证这些算法的可行性,同时证明借助Hadoop可以应用于普通计算机的特点,将大幅减少运算时间。

引用

页数：76

共 24 条

[1]

云计算和云数据管理技术 [J].

刘正伟 ;

文中领 ;

张海涛 .

计算机研究与发展, 2012, 49(S1) (S1) :26-31

[2]

基于近邻传播算法的半监督聚类 [J].

肖宇 ;

于剑 .

软件学报, 2008, (11) :2803-2813

[3]

聚类算法研究 [J].

孙吉贵 ;

刘杰 ;

赵连宇 .

软件学报, 2008, (01) :48-61

[4]

基于特征加权的模糊聚类新算法 [J].

李洁 ;

高新波 ;

焦李成 .

电子学报, 2006, (01) :89-92

[5]

大型矩阵特征值问题并行计算研究概况 [J].

李晓梅 ;

罗晓广 .

指挥技术学院学报, 2001, (03) :1-5

[6]

Top 10 algorithms in data mining.[J].Xindong Wu;Vipin Kumar;J. Ross Quinlan;Joydeep Ghosh;Qiang Yang;Hiroshi Motoda;Geoffrey J. McLachlan;Angus Ng;Bing Liu;Philip S. Yu;Zhi-Hua Zhou;Michael Steinbach;David J. Hand;Dan Steinberg.Knowledge and Information Systems.2009, 1

[7]

Rough clustering of sequential data [J].