机器人足球赛中基于增强学习的任务分工

被引：9

作者：

顾冬雷

陈卫东

席裕庚

机构：

[1] 上海交通大学自动化研究所!上海

来源：

机器人 | 2000年 / 06期

关键词：

Q算法; 无限作用范围衰减奖励优化模型; 平均奖励优化模型;

D O I：

10.13973/j.cnki.robot.2000.06.009

中图分类号：

学科分类号：

摘要：

本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 .

引用

页码：482 / 489

页数：8