基于云计算技术的数据挖掘

被引:20
作者
应毅 [1 ]
任凯 [2 ,3 ]
刘正涛 [1 ,4 ]
机构
[1] 三江学院计算机科学与工程学院
[2] 南京大学金陵学院
[3] 中兴通讯股份有限公司南京研发中心
[4] 南京航空航天大学信息科学与技术学院
关键词
数据挖掘; 云计算; Hadoop; MapReduce; Apriori算法;
D O I
10.19304/j.cnki.issn1000-7180.2013.02.040
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈,针对该问题,提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理.在对经典Apriori算法MapReduce化后,建立了一个基于Hadoop开源框架的并行数据挖掘平台,并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性.实验表明,在集群中使用云计算技术处理大数据集,可以明显提高数据挖掘的效率.
引用
收藏
页码:161 / 164
页数:4
相关论文
共 5 条
[1]   MapReduce并行编程模型研究综述 [J].
李建江 ;
崔健 ;
王聃 ;
严林 ;
黄义双 .
电子学报, 2011, 39 (11) :2635-2642
[2]   基于改进的Map/Reduce及模式空间划分的数据挖掘 [J].
刘骞 ;
陈明 .
微电子学与计算机, 2011, 28 (08) :140-142
[3]   数据挖掘在商场决策支持中的应用研究 [J].
索红军 .
科学技术与工程, 2008, (14) :3950-3952
[4]   基于大型数据仓库的数据采掘:研究综述 [J].
胡侃 ;
夏绍玮 .
软件学报, 1998, (01) :54-64
[5]  
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.清华大学出版社.2011,