学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
KNN分类算法的MapReduce并行化实现
被引:54
作者
:
论文数:
引用数:
h-index:
机构:
闫永刚
[
1
]
论文数:
引用数:
h-index:
机构:
马廷淮
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
王建
[
3
]
机构
:
[1]
南京信息工程大学计算机与软件学院
[2]
南京信息工程大学江苏省网络监控中心
[3]
南京大学电子科学与工程学院
来源
:
南京航空航天大学学报
|
2013年
/ 45卷
/ 04期
基金
:
中国博士后科学基金;
关键词
:
KNN分类;
并行计算;
Map Reduce模型;
Hadoop;
D O I
:
10.16356/j.1005-2615.2013.04.006
中图分类号
:
TP311.13 [];
学科分类号
:
摘要
:
为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并行化。Map函数完成每个测试样本与训练样本之间的相似度计算,Combine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分类判断。实验结果表明:较之以往的单机版方法,在Hadoop集群上实现的并行化KNN算法具有较好的加速比和良好的扩展性。
引用
收藏
页码:550 / 555
页数:6
相关论文
共 9 条
[1]
云计算在基于贝叶斯分类的垃圾短信过滤中的研究与应用
[D].
论文数:
引用数:
h-index:
机构:
朱杰
.
电子科技大学,
2010
[2]
云计算及若干数据挖掘算法的MapReduce化研究
[D].
李军华
论文数:
0
引用数:
0
h-index:
0
机构:
电子科技大学
电子科技大学
李军华
.
电子科技大学,
2010
[3]
一种基于云计算的数据挖掘平台架构设计与实现
[D].
论文数:
引用数:
h-index:
机构:
纪俊
.
青岛大学,
2009
[4]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[5]
云计算环境下关联规则挖掘算法的研究
[J].
论文数:
引用数:
h-index:
机构:
李玲娟
;
论文数:
引用数:
h-index:
机构:
张敏
.
计算机技术与发展,
2011,
21
(02)
:43
-46+50
[6]
数据密集型计算编程模型研究进展
[J].
论文数:
引用数:
h-index:
机构:
王鹏
;
论文数:
引用数:
h-index:
机构:
孟丹
;
论文数:
引用数:
h-index:
机构:
詹剑锋
;
论文数:
引用数:
h-index:
机构:
涂碧波
.
计算机研究与发展,
2010,
47
(11)
:1993
-2002
[7]
多核CPU的海量点云并行kNN算法
[J].
论文数:
引用数:
h-index:
机构:
王宗跃
;
论文数:
引用数:
h-index:
机构:
马洪超
;
徐宏根
论文数:
0
引用数:
0
h-index:
0
机构:
中国国土资源航空物探遥感中心
集美大学计算机工程学院
徐宏根
;
论文数:
引用数:
h-index:
机构:
张建伟
;
论文数:
引用数:
h-index:
机构:
彭检贵
.
测绘科学技术学报,
2010,
27
(01)
:46
-49
[8]
云计算及其关键技术
[J].
论文数:
引用数:
h-index:
机构:
陈全
;
论文数:
引用数:
h-index:
机构:
邓倩妮
.
计算机应用,
2009,
29
(09)
:2562
-2567
[9]
云计算:系统实例与研究现状
[J].
论文数:
引用数:
h-index:
机构:
陈康
;
论文数:
引用数:
h-index:
机构:
郑纬民
.
软件学报,
2009,
20
(05)
:1337
-1348
←
1
→
共 9 条
[1]
云计算在基于贝叶斯分类的垃圾短信过滤中的研究与应用
[D].
论文数:
引用数:
h-index:
机构:
朱杰
.
电子科技大学,
2010
[2]
云计算及若干数据挖掘算法的MapReduce化研究
[D].
李军华
论文数:
0
引用数:
0
h-index:
0
机构:
电子科技大学
电子科技大学
李军华
.
电子科技大学,
2010
[3]
一种基于云计算的数据挖掘平台架构设计与实现
[D].
论文数:
引用数:
h-index:
机构:
纪俊
.
青岛大学,
2009
[4]
MapReduce.[J].Jeffrey Dean;Sanjay Ghemawat.Communications of the ACM.2008, 1
[5]
云计算环境下关联规则挖掘算法的研究
[J].
论文数:
引用数:
h-index:
机构:
李玲娟
;
论文数:
引用数:
h-index:
机构:
张敏
.
计算机技术与发展,
2011,
21
(02)
:43
-46+50
[6]
数据密集型计算编程模型研究进展
[J].
论文数:
引用数:
h-index:
机构:
王鹏
;
论文数:
引用数:
h-index:
机构:
孟丹
;
论文数:
引用数:
h-index:
机构:
詹剑锋
;
论文数:
引用数:
h-index:
机构:
涂碧波
.
计算机研究与发展,
2010,
47
(11)
:1993
-2002
[7]
多核CPU的海量点云并行kNN算法
[J].
论文数:
引用数:
h-index:
机构:
王宗跃
;
论文数:
引用数:
h-index:
机构:
马洪超
;
徐宏根
论文数:
0
引用数:
0
h-index:
0
机构:
中国国土资源航空物探遥感中心
集美大学计算机工程学院
徐宏根
;
论文数:
引用数:
h-index:
机构:
张建伟
;
论文数:
引用数:
h-index:
机构:
彭检贵
.
测绘科学技术学报,
2010,
27
(01)
:46
-49
[8]
云计算及其关键技术
[J].
论文数:
引用数:
h-index:
机构:
陈全
;
论文数:
引用数:
h-index:
机构:
邓倩妮
.
计算机应用,
2009,
29
(09)
:2562
-2567
[9]
云计算:系统实例与研究现状
[J].
论文数:
引用数:
h-index:
机构:
陈康
;
论文数:
引用数:
h-index:
机构:
郑纬民
.
软件学报,
2009,
20
(05)
:1337
-1348
←
1
→