云计算支持下的数据挖掘算法及其应用

被引:0
作者
曹聪
机构
[1] 广州大学
关键词
云计算; Map/Reduce; Apriori; K-Means;
D O I
暂无
年度学位
2012
学位类型
硕士
导师
摘要
数据挖掘(Data Mining,DM),一直是数据库和人工智能领域持续的热点研究问题。经过二十余年的发展,数据挖掘在各个领域的应用已经非常广泛。但是随着计算机技术以及网络技术的发展,信息量、数据量越来越庞大,这些大量的信息在帮助人们更好的生活工作的同时,也加大了人们从中发现有效知识的难度。而且这些海量数据也并非简单整齐地排列分布在数量有限的设备上,它们往往是以各种复杂、异构的模式,充满信息噪声的存在于整个网络之中,要处理并分析这些数据,所要求的计算能力往往很难在限定的时间范围内达到要求,甚至连传统的分布式计算机集群也未必能满足。 云计算的概念天然地为海量数据的存储、分析及处理提供了现实可行性。本文首先介绍、分析了云存储、云计算平台的系统架构,研究了其运行机制。而后基于传统的数据挖掘算法,提出了将经典数据挖掘算法Apriori、K-Means云计算化的一个方案,并基于Map/Reduce框架构建了Apriori、K-Means云计算化的系统模型。最后在Hadoop分布式集群中以海量数据对Map/Reduce化后的Apriori及K-Means算法进行了实验,测试了算法的性能及效率,探讨了对于海量数据挖掘耗时长、效率低的问题,取得了一定的成果。
引用
收藏
页数:59
共 11 条
[1]
云计算在基于贝叶斯分类的垃圾短信过滤中的研究与应用 [D]. 
朱杰 .
电子科技大学,
2010
[2]
云计算及若干数据挖掘算法的MapReduce化研究 [D]. 
李军华 .
电子科技大学,
2010
[3]
基于数据挖掘的读者个性化信息服务系统的研究与设计 [D]. 
李贤虹 .
南昌大学,
2009
[4]
基于SaaS模式的主动服务实现技术 [D]. 
黄芬 .
武汉理工大学,
2009
[5]
基于价值网的云计算商业模式研究 [D]. 
尹小明 .
北京邮电大学,
2009
[6]
基于Hadoop的海量数据处理模型研究和应用 [D]. 
朱珠 .
北京邮电大学,
2008
[7]
基于Web的数据采掘 [J].
王利强 ;
唐常杰 ;
于中华 ;
何雪梅 .
计算机应用, 1998, (10)
[8]
Rough sets, decision algorithms and Bayes' theorem [J].
Pawlak, Z .
EUROPEAN JOURNAL OF OPERATIONAL RESEARCH, 2002, 136 (01) :181-189
[9]
基于最大频繁项目集的数据挖掘关联规则算法研究 [D]. 
宋卫林 .
北京邮电大学,
2006
[10]
Internet环境下协同工作与数据挖掘研究 [D]. 
张锦 .
复旦大学,
2004