分布式机器学习平台与算法综述

被引:34
作者
舒娜 [1 ]
刘波 [1 ]
林伟伟 [2 ]
李鹏飞 [1 ]
机构
[1] 华南师范大学计算机学院
[2] 华南理工大学计算机科学与工程学院
基金
广东省科技计划;
关键词
大数据; 分布式机器学习; 机器学习; 算法分析; 并行计算;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
分布式机器学习研究将具有大规模数据量和计算量的任务分布式地部署到多台机器上,其核心思想在于"分而治之",有效提高了大规模数据计算的速度并节省了开销。分布式机器学习作为机器学习最重要的研究领域之一,受到各界研究者的广泛关注。鉴于分布式机器学习的研究意义和实用价值,文中系统综述了分布式机器学习的主流平台Spark,MXNet,Petuum,TensorFlow及PyTorch,并从各个角度深入总结、分析对比其特性;其次,从数据并行和模型并行两方面深入阐述了机器学习算法的分布式实现方式,而后依照整体同步并行模型、异步并行模型和延迟异步并行模型3种方法对机器学习算法的分布式计算模型进行概述;最后,从平台性能改进研究、算法优化、模型通信方式、大规模计算下算法的可扩展性和分布式环境下模型的容错性5个方面探讨了分布式机器学习在未来的研究方向。
引用
收藏
页码:9 / 18
页数:10
相关论文
共 7 条
  • [1] 可扩展机器学习的并行与分布式优化算法综述
    亢良伊
    王建飞
    刘杰
    叶丹
    [J]. 软件学报, 2018, 29 (01) : 109 - 130
  • [2] 并行机器学习算法基础体系前沿进展综述
    刘斌
    何进荣
    耿耀君
    王最
    [J]. 计算机工程与应用 , 2017, (11) : 31 - 38+89
  • [3] 大数据的分布式机器学习的策略与原则[J]. Eric P.Xing,Qirong Ho,Pengtao Xie,Wei Dai.Engineering. 2016(02)
  • [4] 大数据下的机器学习算法综述
    何清
    李宁
    罗文娟
    史忠植
    [J]. 模式识别与人工智能, 2014, 27 (04) : 327 - 336
  • [5] Dataflow Architectures[J] . Arvind,D E Culler.Annual Review of Computer Science . 1986
  • [6] Communication efficient distributed machine learning with the parameter server. Li M,Andersen D G,Smola A J, et al. Advances in Neural Information Processing Systems . 2014
  • [7] Dynamic Routing Between Capsules. Sara Sabour,Nicholas Frosst,Geoffrey E.Hinton. Neural Information Processing Systems (NIPS) . 2017