基于模糊Q学习的Agent智能决策研究与实现

被引:0
作者
高建清
机构
[1] 合肥工业大学
关键词
多Agent系统; RoboCup; Q学习; 模糊推理系统;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
强化学习是一种无监督的机器学习技术,能够利用不确定的环境奖赏发现最优的行为序列,实现动态环境下的在线学习,因此被广泛用于Agent的智能决策。目前主流的强化学习算法是Q学习算法,但Q学习本身存在一些问题。首先,Q学习算法不能适用于连续状态空间和动作空间的学习,其次,当状态空间很大时,Q表在内存中的存储以及查询都变得十分困难。最后,Q学习算法的学习速度较慢。本文针对RoboCup中的具体问题,结合模糊推理系统对Q学习算法进行了一些扩充和改进,使其适用于复杂环境下的Agent智能决策。本文的主要研究工作如下: 首先,提出一种模糊Q学习算法,通过模糊推理系统将连续的状态空间映射到连续的动作空间,然后通过学习得到一个完整的规则库。这个规则库可以为Agent的动作选择提供依据,通过这个规则库可以实现动态规划。我们将这个算法应用于RoboCup中,实现了踢球策略的优化。 其次,针对RoboCup中的截球问题,提出了一种多回报模糊Q学习算法。该算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习,通过学习得到一个完整的规则库。为了实现Agent短期利益和长期回报间的平衡,算法从不同角度考虑动作的回报值。我们应用该算法成功的解决了RoboCup中的截球问题和2VS1高层决策问题。 最后,提出了一种基于先验知识的模块化Fuzzy Q学习算法,用于解决连续状态空间下的多Agent学习问题。该算法采用模糊推理系统进行状态空间的泛化,使用先验知识以提高算法在初始阶段的性能。另外,为了解决复杂环境下的学习问题,算法采用模块化的方法对问题进行目标分解,并且在Agent的决策时考虑环境中其它Agent的动作,以实现决策的最优化。我们在RoboCup环境中验证了该算法,仿真实验结果证明算法可以有效的解决Agent合作问题。
引用
收藏
页数:61
共 15 条
[1]
分布式智能系统中联盟机制研究 [D]. 
夏娜 .
合肥工业大学,
2005
[2]
多智能体系统中具有先验知识的Q学习算法 [J].
杜春侠 ;
高云 ;
张文 .
清华大学学报(自然科学版), 2005, (07) :981-984
[3]
基于先验知识的强化学习系统 [J].
李伟 ;
何雪松 ;
叶庆泰 ;
朱昌明 .
上海交通大学学报, 2004, (08) :1362-1365
[4]
多Agent系统中强化学习的研究现状和发展趋势 [J].
赵志宏 ;
高阳 ;
骆斌 ;
陈世福 .
计算机科学, 2004, (03) :23-27
[5]
强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[6]
基于模糊推理的踢球技术在足球机器人中的实现 [J].
刘峻峰 ;
顾洋 ;
任雪梅 .
北京理工大学学报, 2003, (05) :571-575
[7]
强化学习在机器人足球比赛中的应用 [J].
孟伟 ;
洪炳熔 ;
韩学东 .
计算机应用研究, 2002, (06) :79-81
[8]
清华机器人足球队的结构设计与实现 [J].
李实 ;
陈江 ;
孙增圻 .
清华大学学报(自然科学版), 2001, (07) :94-97
[9]
模糊控制技术.[M].韩峻峰;李玉惠等编著;.重庆大学出版社.2003,
[10]
多Agent系统引论.[M].(英)MichaelWooldridge著;石纯一等译;.电子工业出版社.2003,