强化学习方法及其应用研究

被引:0
作者
黄炳强
机构
[1] 上海交通大学
关键词
强化学习(RL); 归一化径向基函数(NRBF); 函数逼近; 模糊控制; 递阶遗传算法(HGA); 神经网络; Multi-Agent; 分布式Q-学习; 联合动作;
D O I
暂无
年度学位
2007
学位类型
博士
导师
摘要
强化学习是一种重要的机器学习方法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式,因此在智能控制,机器学习等领域得到了广泛研究。 强化学习的任务就是学习从状态空间到动作空间的映射,其本质就是用参数化的函数来逼近“状态—动作”的映射关系。强化学习中常用算法如Q-学习、TD学习、Sarsa学习的一个共同特点是仅对值函数进行估计,动作选择策略则由值函数的估计完全确定。同时进行值函数和策略空间逼近的泛化方法基本上都是采用Barto提出的自适应启发评价方法(AHC)。该方法在处理具有连续状态空间的问题时,将连续状态空间划分为确定数量的子空间,子空间之间不进行泛化,因而会产生状态组合爆炸,即“维数灾难”问题。因此需要采取量化的方法,将连续输入空间变为离散输入空间,以降低输入空间的复杂度。本文采用归一化径向基函数(NRBF)作为局部函数逼近器用来表示连续输入状态空间并提出了一种基于NRBF的自适应状态空间构建策略。 模糊控制系统具有可读性强和简单易行的优点,近年来在各个领域获得了广泛的应用。在模糊控制器的设计过程中,如何获得好的模糊规则和隶属度函数一直是个瓶颈问题。模糊规则和隶属度函数一般根据经验获得,这使得模糊控制效果往往无法达到最优或次优。遗传算法作为一种全局优化算法,在优化模糊控制器上已得到许多学者的关注,并且在优化模糊规则和隶属函数方面取得了成功。本文提出了一种基于递阶遗传算法的模糊强化学习系统,自适应的调整模糊规则和隶属度函数,提高了强化学习系统的效率。 Agent是对人类个体的仿生,而多Agent系统是对人类社会的仿生。由于学习、交流和协作是人类的本质特征,所以对多Agent系统中的分布式强化学习问题的研究具有重要意义。现有的分布式强化学习方法还存在着结构信度分配困难、学习速度慢等缺陷,这些缺陷大大限制了分布式强化学习方法的应用范围。本文也对分布式强化学习理论进行了系统地研究,并对其存在的部分问题提出了初步的解决办法。 本论文的主要创新点: (1)针对连续高维输入状态空间组合爆炸问题,提出一种基于归一化径向基函数(NRBF)的自适应状空间构建策略。采用归一化径向基函数(NRBF)作为局部函数逼近器用来表示状态空间,结合AHC强化学习方法,根据delta规则自动的调整径向基函数的大小和数目,直到可以满足任务的要求。与传统的状态空间构建策略相比,采用较少的基函数可以达到很高的性能,该方法具有速度快,稳定性高,鲁棒性强等优点。 (2)提出了一种基于递阶遗传算法的模糊强化学习系统(HGAFRL),它是一个基于评价预测的强化学习系统。该强化学习系统由自适应评价网络AEN,动作选择网络ASN和随机动作修改器(SAM)组成,动作选择网络ASN采用基于递阶遗传算法(HGA)的模糊自适应控制器,它可以利用控制基因删除多余的模糊集合和控制规则,并可以增加隶属函数的弹性,优化了模糊自适应控制网络的结构和参数。 (3)提出了一种应用于多Agent系统的改进的分布式Q-学习算法。Agent在学习过程中对其它Agent的行为进行观察与统计,可学习其它Agent的策略并获知该策略对环境的影响,确定其报酬函数和状态后继函数。改进后的分布式Q-学习算法通过对联合动作的统计来学习其它Agent的策略,并利用对其它Agent行动概率估计的方法保证了对联合最优动作的选择,在理论上保证了算法的收敛性。 (4)提出了一种多Agent环境下,通过共享经验策略构建环境模型(状态转移函数和报酬函数)的强化学习方法。Agent可以根据经验估计独立于任务的环境模型,通过使用环境模型加快学习速度。对多Agent分布式系统,Agent间通过共享经验策略加快了环境模型的构建,最后栅格环境下实验仿真证明了该算法是有效的和收敛的。
引用
收藏
页数:134
共 53 条
[1]
分布式强化学习理论及在多机器人中的应用研究 [D]. 
仲宇 .
哈尔滨工程大学,
2003
[2]
Sensor-based path planning for nonholonomic mobile robots subject to dynamic constraints [J].
Ge, Shuzhi Sam ;
Lai, Xue-Cheng ;
Al Mamun, Abdullah .
ROBOTICS AND AUTONOMOUS SYSTEMS, 2007, 55 (07) :513-526
[3]
Multi-Agent System Development Based on Organizations [J].
Argente, Estefania ;
Julian, Vicente ;
Botti, Vicente .
ELECTRONIC NOTES IN THEORETICAL COMPUTER SCIENCE, 2006, 150 (03) :55-71
[4]
The real-time urban traffic control system CRONOS:: Algorithm and experiments [J].
Boillot, Florence ;
Midenet, Sophie ;
Pierrelee, Jean-Claude .
TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES, 2006, 14 (01) :18-38
[5]
Evolutionary computing based mobile robot localization [J].
Kwok, N. M. ;
Liu, D. K. ;
Dissanayake, G. .
ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2006, 19 (08) :857-868
[6]
The maximum fuzzy weighted matching models and hybrid genetic algorithm [J].
Liu, Linzhong ;
Li, Yinzhen ;
Yang, Lixing .
APPLIED MATHEMATICS AND COMPUTATION, 2006, 181 (01) :662-674
[7]
Individualization of pharmacological anemia management using reinforcement learning.[J].Adam E. Gaweda;Mehmet K. Muezzinoglu;George R. Aronoff;Alfred A. Jacobs;Jacek M. Zurada;Michael E. Brier.Neural Networks.2005, 5
[8]
Determination of the optimal values of parameters in reinforcement learning for mobile robot navigation by a genetic algorithm.[J].Keiji Kamei;Masumi Ishikawa.International Congress Series.2004,
[9]
When a genetic algorithm outperforms hill-climbing [J].
Prügel-Bennett, A .
THEORETICAL COMPUTER SCIENCE, 2004, 320 (01) :135-153
[10]
Integration of building simulation and agent simulation for exploration to environmentally symbiotic architecture [J].
Fujii, H ;
Tanimoto, J .
BUILDING AND ENVIRONMENT, 2004, 39 (08) :885-893