一种新的多智能体强化学习算法及其在多机器人协作任务中的应用

被引：53

作者：

顾国昌

仲宇

张汝波

机构：

[1] 哈尔滨工程大学计算机科学与技术学院,哈尔滨工程大学计算机科学与技术学院,哈尔滨工程大学计算机科学与技术学院哈尔滨,哈尔滨,哈尔滨,中国科学院沈阳自动化研究所机器人学重点实验室,沈阳

来源：

机器人 | 2003年 / 04期

关键词：

分布式强化学习; 加速算法; 多智能体系统;

D O I：

暂无

中图分类号：

TP242 [机器人];

学科分类号：

140102 [集成电路设计与设计自动化];

摘要：

在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数 ,并应用于多机器人协作任务之中 .实验结果表明 ,基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略 .

引用

页码：344 / 348+362 +362

页数：6

共 5 条

[1]

Embedding a Priori Knowledge in Reinforcement Learning.[J].Carlos H. C. Ribeiro.Journal of Intelligent and Robotic Systems.1998, 1

[2]

Colearning in Differential Games.[J].John W. Sheppard.Machine Learning.1998, 2

[3]

Technical Note: Q-Learning.[J].Christopher J.C.H. Watkins;Peter Dayan.Machine Learning.1992, 3

[4]

Learning to predict by the methods of temporal differences.[J].Richard S. Sutton.Machine Learning.1988, 1

[5]

强化学习理论、算法及应用 [J].

张汝波 ;

顾国昌 ;

刘照德 ;

王醒策 .

控制理论与应用, 2000, (05) :637-642

← 1 →