强化学习研究综述

被引:59
作者
陈学松 [1 ,2 ]
杨宜民 [1 ]
机构
[1] 广东工业大学自动化学院
[2] 广东工业大学应用数学学院
关键词
强化学习; 多智能体; 马尔可夫决策过程;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
摘要
在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent系统问题等若干领域的成功应用和未来的发展方向。
引用
收藏
页码:2834 / 2838+2844 +2844
页数:6
相关论文
共 32 条
  • [1] Dynamic scheduling of maintenance tasks in the petroleum industry: A reinforcement approach
    Aissani, N.
    Beldjilali, B.
    Trentesaux, D.
    [J]. ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2009, 22 (07) : 1089 - 1103
  • [2] Policy gradient learning for a humanoid soccer robot
    Cherubini, A.
    Giannone, F.
    Iocchi, L.
    Lombardo, M.
    Oriolo, G.
    [J]. ROBOTICS AND AUTONOMOUS SYSTEMS, 2009, 57 (08) : 808 - 818
  • [3] Learning from uniformly ergodic Markov chains
    Zou, Bin
    Zhang, Hai
    Xu, Zongben
    [J]. JOURNAL OF COMPLEXITY, 2009, 25 (02) : 188 - 200
  • [4] An incremental learning algorithm for Lagrangian support vector machines
    Duan, Hua
    Shao, Xiaojian
    Hou, Weizhen
    He, Guoping
    Zeng, Qingtian
    [J]. PATTERN RECOGNITION LETTERS, 2009, 30 (15) : 1384 - 1391
  • [5] Hybrid control for autonomous mobile robot navigation using neural network based behavior modules and environment classification
    Na, YK
    Oh, SY
    [J]. AUTONOMOUS ROBOTS, 2003, 15 (02) : 193 - 206
  • [6] Deliberative on-line local path planning for autonomous mobile robots
    Diéguez, AR
    Sanz, R
    López, J
    [J]. JOURNAL OF INTELLIGENT & ROBOTIC SYSTEMS, 2003, 37 (01) : 1 - 19
  • [7] Technical update: Least-squares temporal difference learning
    Boyan, JA
    [J]. MACHINE LEARNING, 2002, 49 (2-3) : 233 - 246
  • [8] Convergence results for single-step on-policy reinforcement-learning algorithms
    Singh, S
    Jaakkola, T
    Littman, ML
    Szepesvári, C
    [J]. MACHINE LEARNING, 2000, 38 (03) : 287 - 308
  • [9] Elevator Group Control Using Multiple Reinforcement Learning Agents.[J].Robert H. Crites;Andrew G. Barto.Machine Learning.1998, 2
  • [10] Incremental multi-step Q-learning.[J].Jing Peng;Ronald J. Williams.Machine Learning.1996, 1