机器人足球赛中基于增强学习的任务分工

被引:9
作者
顾冬雷
陈卫东
席裕庚
机构
[1] 上海交通大学自动化研究所!上海
关键词
Q算法; 无限作用范围衰减奖励优化模型; 平均奖励优化模型;
D O I
10.13973/j.cnki.robot.2000.06.009
中图分类号
学科分类号
摘要
本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 .
引用
收藏
页码:482 / 489
页数:8
相关论文
共 1 条
[1]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)