学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于强化学习算法的多机器人系统的冲突消解策略
被引:7
作者
:
任燚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
任燚
论文数:
引用数:
h-index:
机构:
陈宗海
机构
:
[1]
中国科学技术大学自动化系
来源
:
控制与决策
|
2006年
/ 04期
关键词
:
多机器人;
过程奖赏;
优先扫除;
强化学习;
D O I
:
10.13195/j.cd.2006.04.72.reny.015
中图分类号
:
TP242 [机器人];
学科分类号
:
1111 ;
摘要
:
多机器人系统中,随着机器人数目的增加,系统中的冲突呈指数级增加,甚至出现死锁.本文提出了基于过程奖赏和优先扫除的强化学习算法作为多机器人系统的冲突消解策略.针对典型的多机器人可识别群体觅食任务,以计算机仿真为手段,以收集的目标物数量为系统性能指标,以算法收敛时学习次数为学习速度指标,进行仿真研究,并与基于全局奖赏和Q学习算法等其他9种算法进行比较.结果表明所提出的基于过程奖赏和优先扫除的强化学习算法能显著减少冲突,避免死锁,提高系统整体性能.
引用
收藏
页码:430 / 434+439 +439
页数:6
相关论文
共 5 条
[1]
环境因素对多自主移动机器人系统的影响研究
[J].
任燚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
任燚
;
陈宗海
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
陈宗海
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
不详
.
计算机工程与应用 ,
2005,
(22)
:61
-63+149
[2]
分布式多移动机器人系统中基于局部感知的排队协调策略研究
[J].
王坤
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所,上海交通大学自动化研究所上海,上海
王坤
;
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所,上海交通大学自动化研究所上海,上海
陈卫东
.
机器人,
2002,
(06)
:540
-544
[3]
分布式多自主机器人系统冲突及其消解策略的实例研究
[J].
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
陈卫东
;
李振海
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
李振海
;
席裕庚
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
席裕庚
.
系统仿真学报,
2002,
(10)
:1288
-1292+1301
[4]
强化学习理论、算法及应用
[J].
论文数:
引用数:
h-index:
机构:
张汝波
;
顾国昌
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
顾国昌
;
刘照德
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
刘照德
;
王醒策
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
王醒策
.
控制理论与应用,
2000,
(05)
:637
-642
[5]
Prioritized Sweeping: Reinforcement Learning with Less Data and Less Time[J] . Andrew W. Moore,Christopher G. Atkeson.Machine Learning . 1993 (1)
←
1
→
共 5 条
[1]
环境因素对多自主移动机器人系统的影响研究
[J].
任燚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
任燚
;
陈宗海
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
陈宗海
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
不详
.
计算机工程与应用 ,
2005,
(22)
:61
-63+149
[2]
分布式多移动机器人系统中基于局部感知的排队协调策略研究
[J].
王坤
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所,上海交通大学自动化研究所上海,上海
王坤
;
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所,上海交通大学自动化研究所上海,上海
陈卫东
.
机器人,
2002,
(06)
:540
-544
[3]
分布式多自主机器人系统冲突及其消解策略的实例研究
[J].
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
陈卫东
;
李振海
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
李振海
;
席裕庚
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
席裕庚
.
系统仿真学报,
2002,
(10)
:1288
-1292+1301
[4]
强化学习理论、算法及应用
[J].
论文数:
引用数:
h-index:
机构:
张汝波
;
顾国昌
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
顾国昌
;
刘照德
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
刘照德
;
王醒策
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工程大学计算机系!哈尔滨
王醒策
.
控制理论与应用,
2000,
(05)
:637
-642
[5]
Prioritized Sweeping: Reinforcement Learning with Less Data and Less Time[J] . Andrew W. Moore,Christopher G. Atkeson.Machine Learning . 1993 (1)
←
1
→