自主机器人的强化学习研究进展

被引:19
作者
陈卫东
席裕庚
顾冬雷
机构
[1] 上海交通大学自动化系!上海
[2] 中国科学院机器人学开放研究实验室!沈阳
基金
国家自然科学基金重点项目;
关键词
强化学习; Markov决策过程; 自主机器人; 机器智能; 基于行为;
D O I
10.13973/j.cnki.robot.2001.04.018
中图分类号
TP242 [机器人];
学科分类号
1111 ;
摘要
虽然基于行为控制的自主机器人具有较高的鲁棒性 ,但其对于动态环境缺乏必要的自适应能力 .强化学习方法使机器人可以通过学习来完成任务 ,而无需设计者完全预先规定机器人的所有动作 ,它是将动态规划和监督学习结合的基础上发展起来的一种新颖的学习方法 ,它通过机器人与环境的试错交互 ,利用来自成功和失败经验的奖励和惩罚信号不断改进机器人的性能 ,从而达到目标 ,并容许滞后评价 .由于其解决复杂问题的突出能力 ,强化学习已成为一种非常有前途的机器人学习方法 .本文系统论述了强化学习方法在自主机器人中的研究现状 ,指出了存在的问题 ,分析了几种问题解决途径 ,展望了未来发展趋势 .
引用
收藏
页码:379 / 384
页数:6
相关论文
共 5 条
  • [1] Embedding a Priori Knowledge in Reinforcement Learning[J] . Carlos H. C. Ribeiro.Journal of Intelligent and Robotic Systems . 1998 (1)
  • [2] Learning from History for Behavior-Based Mobile Robots in Non-Stationary Conditions[J] . Machine Learning . 1998 (1)
  • [3] Learning concepts from sensor data of a mobile robot[J] . Volker Klingspor,Katharina J. Morik,Anke D. Rieger.Machine Learning . 1996 (2)
  • [4] Purposive behavior acquisition for a real robot by vision-based reinforcement learning[J] . Minoru Asada,Shoichi Noda,Sukoya Tawaratsumida,Koh Hosoda.Machine Learning . 1996 (2)
  • [5] Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)