KNN分类算法的MapReduce并行化实现

被引:54
作者
闫永刚 [1 ]
马廷淮 [1 ,2 ]
王建 [3 ]
机构
[1] 南京信息工程大学计算机与软件学院
[2] 南京信息工程大学江苏省网络监控中心
[3] 南京大学电子科学与工程学院
基金
中国博士后科学基金;
关键词
KNN分类; 并行计算; Map Reduce模型; Hadoop;
D O I
10.16356/j.1005-2615.2013.04.006
中图分类号
TP311.13 [];
学科分类号
摘要
为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并行化。Map函数完成每个测试样本与训练样本之间的相似度计算,Combine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分类判断。实验结果表明:较之以往的单机版方法,在Hadoop集群上实现的并行化KNN算法具有较好的加速比和良好的扩展性。
引用
收藏
页码:550 / 555
页数:6
相关论文
共 9 条
[1]
云计算在基于贝叶斯分类的垃圾短信过滤中的研究与应用 [D]. 
朱杰 .
电子科技大学,
2010
[2]
云计算及若干数据挖掘算法的MapReduce化研究 [D]. 
李军华 .
电子科技大学,
2010
[3]
一种基于云计算的数据挖掘平台架构设计与实现 [D]. 
纪俊 .
青岛大学,
2009
[4]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[5]
云计算环境下关联规则挖掘算法的研究 [J].
李玲娟 ;
张敏 .
计算机技术与发展, 2011, 21 (02) :43-46+50
[6]
数据密集型计算编程模型研究进展 [J].
王鹏 ;
孟丹 ;
詹剑锋 ;
涂碧波 .
计算机研究与发展, 2010, 47 (11) :1993-2002
[7]
多核CPU的海量点云并行kNN算法 [J].
王宗跃 ;
马洪超 ;
徐宏根 ;
张建伟 ;
彭检贵 .
测绘科学技术学报, 2010, 27 (01) :46-49
[8]
云计算及其关键技术 [J].
陈全 ;
邓倩妮 .
计算机应用, 2009, 29 (09) :2562-2567
[9]
云计算:系统实例与研究现状 [J].
陈康 ;
郑纬民 .
软件学报, 2009, 20 (05) :1337-1348