在云环境下的数据挖掘算法的并行化研究

被引:0
作者
胡善杰
机构
[1] 电子科技大学
关键词
Hadoop; 云计算; Mapreduce; Spark; 数据挖掘;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
随着计算机技术特别是网络技术的发展,人们开始面临海量并且急速增长的数据,如何从这些数据中获取相关知识为人类的生活、科研和生产服务己经成为一个严峻的问题。解决这个问题将要用到一门综合的学科:数据挖掘。数据挖掘是融合了计算机科学、数学和统计学等多门学科的一门综合学科。数据挖掘是一个具有现实和学术意义的研究方向。传统数据挖掘算法及其改进算法多是运行在单机上,并且使用的是串行运算。比如Apriori算法和K-means算法都是运行在单节点上的,当他们对海量数据进行处理时,由于单机的资源(如CPU、RAM等)有限不能高效的完成数据挖掘任务。为了提高数据挖掘算法对海量数据的处理能力,最好能将待处理的数据存放在多个节点上处理,这样就能利用多台机器的资源高效的完成数据挖掘任务。 本文通过研究前人在数据挖掘方面取得的成果,对Apriori算法和K-means算法做了修改,克服了己有算法在逻辑上的一些缺陷,提出了新的关联规则算法MCApriori算法和新的聚类分析算法CK算法。本文主要对以下内容进行研究: (1)对传统的Apriori算法和K-means算法进行了解和说明,分析了传统算法存在的缺陷,并研究了现有的一些改进算法。 (2)对云计算技术的发展和相关技术进行研究,分析了两个云计算平台(Hadoop和Spark)的并行计算能力,并研究了其在数据挖掘领域的一些应用。 (3)针对Apriori算法存在对事务数据库多次扫描和候选集过大的问题,本文提出了改进算法MCApriori,该算法引入了Boolean矩阵和事务权值。将K-候选集的支持度计算变成向量运算,不需要多次对事务数据库全扫描,对于重复事务使用权值对其去重,这样就可以对矩阵进行压缩,减少向量运算的计算量。 (4)针对K-means算法存在初始聚类中心点随机性和K值定义的问题,本文提出了改进算法CK,该算法引入了Canopy算法,将Canopy算法应用到K-means算法中,先使用Canopy算法来对聚类数据快速聚类,然后在此基础上对每个Canopy中的数据使用K-means算法进行迭代聚类。 (5)将MCApriori算法和CK算法和两个优秀的云计算平台(Hadoop和Spark)结合,实现改进算法的并行化,提高改进算法在云环境下的应用能力。
引用
收藏
页数:101
共 37 条
[1]
面向中观审计的规则发现算法研究 [D]. 
陈耿 .
东南大学,
2005
[2]
基于人工鱼群的优化K-means聚类算法 [J].
于海涛 ;
贾美娟 ;
王慧强 ;
邵国强 .
计算机科学, 2012, 39 (12) :60-64
[3]
IKMQT-一种改进的K-Mean算法及其在医院预约分诊排队中的应用 [J].
姜永增 ;
姚仲敏 ;
张裕 ;
董晶 .
科技通报, 2012, 28 (08) :126-128
[4]
电子商务中的web数据挖掘应用研究 [J].
郭晓晨 .
长春理工大学学报, 2012, 7 (07) :55-56+63
[5]
基于2d-距离改进的K-means聚类算法研究 [J].
陈福集 ;
蒋芳 .
太原理工大学学报, 2012, (02) :114-118
[6]
基于微软云计算平台的海量数据挖掘系统 [J].
李金凤 ;
姜利群 .
电脑知识与技术, 2011, 7 (34) :8766-8768
[7]
大数据分析——RDBMS与MapReduce的竞争与共生 [J].
覃雄派 ;
王会举 ;
杜小勇 ;
王珊 .
软件学报, 2012, 23 (01) :32-45
[8]
基于PDS和ENNS的快速K-Means聚类算法 [J].
禹贵辉 ;
潘志斌 ;
乔瑞萍 ;
邹彬 ;
姜彦民 .
微电子学与计算机, 2011, 28 (06) :16-21
[9]
网格环境下基于Weka4WS的分布式聚类算法 [J].
郑世明 ;
徐顺福 ;
宋自林 ;
苗壮 .
计算机应用研究, 2010, 27 (11) :4072-4075
[10]
关联规则的增量更新算法研究 [J].
富志伟 .
软件导刊, 2010, 9 (08) :52-54