基于SparkR的分类算法并行化研究

被引:14
作者
刘志强 [1 ,2 ]
顾荣 [1 ,2 ]
袁春风 [1 ,2 ,3 ]
黄宜华 [1 ,2 ,3 ]
机构
[1] 南京大学计算机软件新技术国家重点实验室
[2] 南京大学计算机科学与技术系
[3] 江苏省软件新技术与产业化协同创新中心
关键词
SparkR; 分类算法; 并行化; 局部迭代; 内存计算;
D O I
暂无
中图分类号
TP311.13 []; TP181 [自动推理、机器学习];
学科分类号
1201 ; 081104 ; 0812 ; 0835 ; 1405 ;
摘要
近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。
引用
收藏
页码:1281 / 1294
页数:14
相关论文
共 4 条
[1]   基于Hadoop的分布式朴素贝叶斯文本分类 [J].
卫洁 ;
石洪波 ;
冀素琴 .
计算机系统应用, 2012, 21 (02) :210-213
[2]   并行数据挖掘算法综述 [J].
刘华元 ;
袁琴琴 ;
王保保 .
电子科技, 2006, (01) :65-68+73
[3]  
基于多核计算的分类数据挖掘算法研究[D]. 刘闯.南京航空航天大学 2012
[4]  
MapReduce[J] . Jeffrey Dean,Sanjay Ghemawat.Communications of the ACM . 2008 (1)