可扩展机器学习的并行与分布式优化算法综述

被引:29
作者
亢良伊 [1 ,2 ]
王建飞 [1 ,2 ]
刘杰 [1 ,3 ]
叶丹 [1 ]
机构
[1] 中国科学院软件研究所软件工程技术研发中心
[2] 中国科学院大学
[3] 计算机科学国家重点实验室(中国科学院软件研究所)
关键词
机器学习; 优化算法; 并行算法; 分布式算法;
D O I
10.13328/j.cnki.jos.005376
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
机器学习问题通常会转换成一个目标函数去求解,优化算法是求解目标函数中参数的重要工具.在大数据环境下,需要设计并行与分布式的优化算法,通过多核计算和分布式计算技术来加速训练过程.近年来,该领域涌现了大量研究工作,部分算法也在各机器学习平台得到广泛应用.针对梯度下降算法、二阶优化算法、邻近梯度算法、坐标下降算法、交替方向乘子算法这5类最常见的优化方法展开研究,每一类算法分别从单机并行和分布式并行来分析相关研究成果,并从模型特性、输入数据特性、算法评价、并行计算模型等角度对每种算法进行详细对比.随后,对有代表性的可扩展机器学习平台中优化算法的实现和应用情况进行对比分析.同时,对所介绍的所有优化算法进行多层次分类,方便用户根据目标函数类型选择合适的优化算法,也可以通过该多层次分类图交叉探索如何将优化算法应用到新的目标函数类型.最后分析了现有优化算法存在的问题,提出可能的解决思路,并对未来研究方向进行展望.
引用
收藏
页码:109 / 130
页数:22
相关论文
共 9 条
[1]  
大数据的分布式机器学习的策略与原则[J]. Eric P.Xing,Qirong Ho,Pengtao Xie,Wei Dai.Engineering. 2016(02)
[2]  
Cyclic coordinate descent: A robotics algorithm for protein loop closure[J] . Adrian A.Canutescu,Roland L.Dunbrack.Protein Science . 2009 (5)
[3]   ON THE CONVERGENCE OF THE COORDINATE DESCENT METHOD FOR CONVEX DIFFERENTIABLE MINIMIZATION [J].
LUO, ZQ ;
TSENG, P .
JOURNAL OF OPTIMIZATION THEORY AND APPLICATIONS, 1992, 72 (01) :7-35
[4]  
On the limited memory BFGS method for large scale optimization[J] . Dong C. Liu,Jorge Nocedal.Mathematical Programming . 1989 (1-3)
[5]  
Block truncated-Newton methods for parallel optimization[J] . Stephen G. Nash,Ariela Sofer.Mathematical Programming . 1989 (1)
[6]   A FAMILY OF VARIABLE-METRIC METHODS DERIVED BY VARIATIONAL MEANS [J].
GOLDFARB, D .
MATHEMATICS OF COMPUTATION, 1970, 24 (109) :23-&
[7]  
Feature clustering for accelerating parallel coordinate descent. Scherrer C,Tewari A,Halappanavar M,et al. Advances in Neural Information Processing Systems . 2012
[8]  
Splash:User-Friendly programming interface for parallelizing stochastic algorithms. Zhang YC,Michael IJ. . 2015
[9]  
DiSCO:Distributed optimization for self-concordant empirical loss. Zhang YC,Lin X. The Journal of Machine Learning Research . 2015