基于Markov对策和强化学习的多智能体协作研究

被引:7
作者
李晓萌
杨煜普
许晓鸣
机构
[1] 上海交通大学自动化系!上海
关键词
Markov对策; Q-学习算法; 协调学习;
D O I
10.16183/j.cnki.jsjtu.2001.02.042
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 .
引用
收藏
页码:288 / 292
页数:5
相关论文
共 2 条
[1]   A unified analysis of value-function-based reinforcement-learning algorithms [J].
Szepesvári, C ;
Littman, ML .
NEURAL COMPUTATION, 1999, 11 (08) :2017-2060
[2]  
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)