学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Markov对策和强化学习的多智能体协作研究
被引:7
作者
:
李晓萌
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化系!上海
李晓萌
杨煜普
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化系!上海
杨煜普
许晓鸣
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化系!上海
许晓鸣
机构
:
[1]
上海交通大学自动化系!上海
来源
:
上海交通大学学报
|
2001年
/ 02期
关键词
:
Markov对策;
Q-学习算法;
协调学习;
D O I
:
10.16183/j.cnki.jsjtu.2001.02.042
中图分类号
:
TP18 [人工智能理论];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 .
引用
收藏
页码:288 / 292
页数:5
相关论文
共 2 条
[1]
A unified analysis of value-function-based reinforcement-learning algorithms
[J].
Szepesvári, C
论文数:
0
引用数:
0
h-index:
0
机构:
Mindmaker Ltd, H-1121 Budapest, Hungary
Szepesvári, C
;
Littman, ML
论文数:
0
引用数:
0
h-index:
0
机构:
Mindmaker Ltd, H-1121 Budapest, Hungary
Littman, ML
.
NEURAL COMPUTATION,
1999,
11
(08)
:2017
-2060
[2]
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→
共 2 条
[1]
A unified analysis of value-function-based reinforcement-learning algorithms
[J].
Szepesvári, C
论文数:
0
引用数:
0
h-index:
0
机构:
Mindmaker Ltd, H-1121 Budapest, Hungary
Szepesvári, C
;
Littman, ML
论文数:
0
引用数:
0
h-index:
0
机构:
Mindmaker Ltd, H-1121 Budapest, Hungary
Littman, ML
.
NEURAL COMPUTATION,
1999,
11
(08)
:2017
-2060
[2]
Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)
←
1
→