学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
机器人足球赛中基于增强学习的任务分工
被引:9
作者
:
论文数:
引用数:
h-index:
机构:
顾冬雷
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所!上海
陈卫东
席裕庚
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所!上海
席裕庚
机构
:
[1]
上海交通大学自动化研究所!上海
来源
:
机器人
|
2000年
/ 06期
关键词
:
Q算法;
无限作用范围衰减奖励优化模型;
平均奖励优化模型;
D O I
:
10.13973/j.cnki.robot.2000.06.009
中图分类号
:
学科分类号
:
摘要
:
本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 .
引用
收藏
页码:482 / 489
页数:8
相关论文
共 1 条
[1]
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→
共 1 条
[1]
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→