基于Spark的并行SVM算法研究

被引:17
作者
刘泽燊
潘志松
机构
[1] 解放军理工大学指挥信息系统学院
关键词
并行计算; 支持向量机; 大规模数据; 层叠模型; Spark;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP338.6 [并行计算机];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081201 ;
摘要
随着数据规模的不断增加,支持向量机(SVM)的并行化设计成为数据挖掘领域的一个研究热点。针对SVM算法训练大规模数据时存在寻优速度慢、内存占用大等问题,提出了一种基于Spark平台的并行支持向量机算法(SP-SVM)。该方法通过调整层叠支持向量机(Cascade SVM)的合并策略和训练结构,并利用Spark分布式计算框架实现;其次,进一步分析并行操作算子的性能,优化算法并行化实现方案,有效克服了层叠模型训练效率低的缺点。实验结果表明,新的并行训练方法在损失较小精度的前提下,在一定程度上减少了训练时间,能够很好地提高模型的学习效率。
引用
收藏
页码:238 / 242
页数:5
相关论文
共 3 条
[1]  
基于分布式计算的SVM算法优化.[D].郭欣欣.西安电子科技大学.2014, 11
[2]   基于MapReduce的层叠分组并行SVM算法研究 [J].
张鹏翔 ;
刘利民 ;
马志强 .
计算机应用与软件, 2015, 32 (03) :172-176
[3]   基于CUDA的SVM算法并行化研究 [J].
张巍 ;
张功萱 ;
王永利 ;
张永平 ;
朱昭萌 .
计算机科学, 2013, 40 (04) :69-72+106