基于强化学习算法的多机器人系统的冲突消解策略

被引:7
作者
任燚
陈宗海
机构
[1] 中国科学技术大学自动化系
关键词
多机器人; 过程奖赏; 优先扫除; 强化学习;
D O I
10.13195/j.cd.2006.04.72.reny.015
中图分类号
TP242 [机器人];
学科分类号
1111 ;
摘要
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能.
引用
收藏
页码:430 / 434+439 +439
页数:6
相关论文
共 5 条
[1]   环境因素对多自主移动机器人系统的影响研究 [J].
任燚 ;
陈宗海 ;
不详 .
计算机工程与应用 , 2005, (22) :61-63+149
[2]   分布式多移动机器人系统中基于局部感知的排队协调策略研究 [J].
王坤 ;
陈卫东 .
机器人, 2002, (06) :540-544
[3]   分布式多自主机器人系统冲突及其消解策略的实例研究 [J].
陈卫东 ;
李振海 ;
席裕庚 .
系统仿真学报, 2002, (10) :1288-1292+1301
[4]   强化学习理论、算法及应用 [J].
张汝波 ;
顾国昌 ;
刘照德 ;
王醒策 .
控制理论与应用, 2000, (05) :637-642
[5]  
Prioritized Sweeping: Reinforcement Learning with Less Data and Less Time[J] . Andrew W. Moore,Christopher G. Atkeson.Machine Learning . 1993 (1)