一种新颖的多agent强化学习方法

被引:9
作者
周浦城
洪炳镕
黄庆成
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
多agent学习; Q-学习; 利益分配学习; 模块化结构; 对手建模;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种综合了模块化结构、利益分配学习以及对手建模技术的多agent强化学习方法,利用模块化学习结构来克服状态空间的维数灾问题,将Q-学习与利益分配学习相结合以加快学习速度,采用基于观察的对手建模来预测其他agent的动作分布.追捕问题的仿真结果验证了所提方法的有效性.
引用
收藏
页码:1488 / 1491
页数:4
相关论文
共 5 条
[1]   Coordinating multiple agents via reinforcement learning [J].
Chen, G ;
Yang, ZH ;
He, H ;
Goh, KM .
AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS, 2005, 10 (03) :273-328
[2]   Autonomous agents that learn to better coordinate [J].
Garland, A ;
Alterman, R .
AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS, 2004, 8 (03) :267-301
[3]  
Learning Coordination Strategies for Cooperative Multiagent Systems[J] . F. Ho,M. Kamel.Machine Learning . 1998 (2)
[4]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
[5]  
Credit assignment in rule discovery systems based on genetic algorithms[J] . John J. Grefenstette.Machine Learning . 1988 (2)