基于值函数和策略梯度的深度强化学习综述

被引：563

作者：

刘建伟

高峰

罗雄麟

机构：

[1] 中国石油大学(北京)自动化系

来源：

计算机学报 | 2019年 / 42卷 / 06期

关键词：

深度学习; 强化学习; 深度强化学习; 值函数; 策略梯度; 机器学习;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

140502 [人工智能];

摘要：

作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统.其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点.该文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构.首先,本文概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法.然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法.接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和该文概述的两种深度强化学习方法的联系.最后对深度强化学习的未来研究方向进行了展望.

引用

页码：1406 / 1438

页数：33

共 19 条

[1]

深度强化学习综述 [J].

刘全 ;

翟建伟 ;

章宗长 ;

钟珊 ;

周倩 ;

章鹏 ;

徐进 .

计算机学报, 2018, 41 (01) :1-27

[2]

深度强化学习综述:兼论计算机围棋的发展 [J].

赵冬斌 ;

邵坤 ;

朱圆恒 ;

李栋 ;

陈亚冉 ;

王海涛 ;

刘德荣 ;

周彤 ;

王成红 .

控制理论与应用, 2016, 33 (06) :701-717

[3]

Exploring Deep Reinforcement Learning with Multi Q-Learning[J] Ethan Duryea;Michael Ganger;Wei Hu Intelligent Control and Automation 2016,

[4]

Real-time reinforcement learning by sequential Actor–Critics and experience replay[J] Neural Networks 2009,

[5]

Long Short-Term Memory[J] Sepp Hochreiter;Jürgen Schmidhuber Neural Computation 1997,

[6]

Simple statistical gradient-following algorithms for connectionist reinforcement learning[J] Ronald J. Williams Machine Learning 1992,

[7]

Self-Improving Reactive Agents Based on Reinforcement Learning; Planning and Teaching[J] Long-Ji Lin Machine Learning 1992,

[8]

Q -learning[J] Christopher J. C. H. Watkins;Peter Dayan Machine Learning 1992,

[9]

Learning to Predict by the Methods of Temporal Differences[J] Richard S. Sutton Machine Learning 1988,

[10]

An informationtheoretic optimality principle for deep reinforcement learning Leibfried F;Graumoya J;Bouammar H; 2017,

← 1 2 →