基于MapReduce的海量数据挖掘技术研究

被引:34
作者
李伟卫 [1 ]
赵航 [2 ]
张阳 [1 ]
王勇 [3 ]
机构
[1] 西北农林科技大学信息工程学院
[2] 西安电子科技大学机电工程学院
[3] 西北工业大学计算机学院
关键词
云计算; 数据挖掘; Hadoop; MapReduce;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。
引用
收藏
页码:112 / 117
页数:6
相关论文
共 2 条
[1]  
Bigtable[J] . Fay Chang,Jeffrey Dean,Sanjay Ghemawat,Wilson C. Hsieh,Deborah A. Wallach,Mike Burrows,Tushar Chandra,Andrew Fikes,Robert E. Gruber.ACM Transactions on Computer Systems (TOCS) . 2008 (2)
[2]   Extensions to the k-means algorithm for clustering large data sets with categorical values [J].
Huang, ZX .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (03) :283-304