多Agent Q学习几点问题的研究及改进

被引:5
作者
孟祥萍 [1 ]
王圣镔 [2 ]
王欣欣 [2 ]
机构
[1] 长春工程学院电气与信息学院
[2] 东北电力大学信息工程学院
关键词
多Agent强化学习算法; 蚁群算法; 轮盘赌算法; Q值; 动作空间灾难;
D O I
10.16208/j.issn1000-7024.2009.09.074
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降。另外,由于Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。在这里,把蚁群算法,轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效的提高学习效率。
引用
收藏
页码:2274 / 2276
页数:3
相关论文
empty
未找到相关数据