基于强化学习算法的多机器人系统的冲突消解策略

被引：7

作者：

任燚

陈宗海

机构：

[1] 中国科学技术大学自动化系

来源：

控制与决策 | 2006年 / 04期

关键词：

多机器人; 过程奖赏; 优先扫除; 强化学习;

D O I：

10.13195/j.cd.2006.04.72.reny.015

中图分类号：

TP242 [机器人];

学科分类号：

1111 ;

摘要：

多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能.

引用

页码：430 / 434+439 +439

页数：6

共 5 条

[1] 环境因素对多自主移动机器人系统的影响研究 [J].