强化学习研究综述

被引：59

作者：

陈学松 ^{[1
,2
]}

杨宜民 ^{[1
]}

机构：

[1] 广东工业大学自动化学院

[2] 广东工业大学应用数学学院

来源：

计算机应用研究 | 2010年 / 27卷 / 08期

关键词：

强化学习; 多智能体; 马尔可夫决策过程;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

摘要：

在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent系统问题等若干领域的成功应用和未来的发展方向。

引用

页码：2834 / 2838+2844 +2844

页数：6

共 32 条

[1] Dynamic scheduling of maintenance tasks in the petroleum industry: A reinforcement approach
Aissani, N.
Beldjilali, B.
Trentesaux, D.
[J]. ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2009, 22 (07) : 1089 - 1103
[2] Policy gradient learning for a humanoid soccer robot
Cherubini, A.
Giannone, F.
Iocchi, L.
Lombardo, M.
Oriolo, G.
[J]. ROBOTICS AND AUTONOMOUS SYSTEMS, 2009, 57 (08) : 808 - 818
[3] Learning from uniformly ergodic Markov chains
Zou, Bin
Zhang, Hai
Xu, Zongben
[J]. JOURNAL OF COMPLEXITY, 2009, 25 (02) : 188 - 200
[4] An incremental learning algorithm for Lagrangian support vector machines
Duan, Hua
Shao, Xiaojian
Hou, Weizhen
He, Guoping
Zeng, Qingtian
[J]. PATTERN RECOGNITION LETTERS, 2009, 30 (15) : 1384 - 1391
[5] Hybrid control for autonomous mobile robot navigation using neural network based behavior modules and environment classification
Na, YK
Oh, SY
[J]. AUTONOMOUS ROBOTS, 2003, 15 (02) : 193 - 206
[6] Deliberative on-line local path planning for autonomous mobile robots
Diéguez, AR
Sanz, R
López, J
[J]. JOURNAL OF INTELLIGENT & ROBOTIC SYSTEMS, 2003, 37 (01) : 1 - 19
[7] Technical update: Least-squares temporal difference learning
Boyan, JA
[J]. MACHINE LEARNING, 2002, 49 (2-3) : 233 - 246
[8] Convergence results for single-step on-policy reinforcement-learning algorithms
Singh, S
Jaakkola, T
Littman, ML
Szepesvári, C
[J]. MACHINE LEARNING, 2000, 38 (03) : 287 - 308
[9] Elevator Group Control Using Multiple Reinforcement Learning Agents.[J].Robert H. Crites;Andrew G. Barto.Machine Learning.1998, 2
[10] Incremental multi-step Q-learning.[J].Jing Peng;Ronald J. Williams.Machine Learning.1996, 1

← 1 2 3 4 →