强化学习方法及其应用研究

被引：0

作者：

黄炳强

机构：

[1] 上海交通大学

关键词：

强化学习(RL); 归一化径向基函数(NRBF); 函数逼近; 模糊控制; 递阶遗传算法(HGA); 神经网络; Multi-Agent; 分布式Q-学习; 联合动作;

D O I：

暂无

年度学位：

2007

学位类型：

博士

导师：

曹广益;

摘要：

强化学习是一种重要的机器学习方法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式,因此在智能控制,机器学习等领域得到了广泛研究。强化学习的任务就是学习从状态空间到动作空间的映射,其本质就是用参数化的函数来逼近“状态—动作”的映射关系。强化学习中常用算法如Q-学习、TD学习、Sarsa学习的一个共同特点是仅对值函数进行估计,动作选择策略则由值函数的估计完全确定。同时进行值函数和策略空间逼近的泛化方法基本上都是采用Barto提出的自适应启发评价方法(AHC)。该方法在处理具有连续状态空间的问题时,将连续状态空间划分为确定数量的子空间,子空间之间不进行泛化,因而会产生状态组合爆炸,即“维数灾难”问题。因此需要采取量化的方法,将连续输入空间变为离散输入空间,以降低输入空间的复杂度。本文采用归一化径向基函数(NRBF)作为局部函数逼近器用来表示连续输入状态空间并提出了一种基于NRBF的自适应状态空间构建策略。模糊控制系统具有可读性强和简单易行的优点,近年来在各个领域获得了广泛的应用。在模糊控制器的设计过程中,如何获得好的模糊规则和隶属度函数一直是个瓶颈问题。模糊规则和隶属度函数一般根据经验获得,这使得模糊控制效果往往无法达到最优或次优。遗传算法作为一种全局优化算法,在优化模糊控制器上已得到许多学者的关注,并且在优化模糊规则和隶属函数方面取得了成功。本文提出了一种基于递阶遗传算法的模糊强化学习系统,自适应的调整模糊规则和隶属度函数,提高了强化学习系统的效率。 Agent是对人类个体的仿生,而多Agent系统是对人类社会的仿生。由于学习、交流和协作是人类的本质特征,所以对多Agent系统中的分布式强化学习问题的研究具有重要意义。现有的分布式强化学习方法还存在着结构信度分配困难、学习速度慢等缺陷,这些缺陷大大限制了分布式强化学习方法的应用范围。本文也对分布式强化学习理论进行了系统地研究,并对其存在的部分问题提出了初步的解决办法。本论文的主要创新点: (1)针对连续高维输入状态空间组合爆炸问题,提出一种基于归一化径向基函数(NRBF)的自适应状空间构建策略。采用归一化径向基函数(NRBF)作为局部函数逼近器用来表示状态空间,结合AHC强化学习方法,根据delta规则自动的调整径向基函数的大小和数目,直到可以满足任务的要求。与传统的状态空间构建策略相比,采用较少的基函数可以达到很高的性能,该方法具有速度快,稳定性高,鲁棒性强等优点。 (2)提出了一种基于递阶遗传算法的模糊强化学习系统(HGAFRL),它是一个基于评价预测的强化学习系统。该强化学习系统由自适应评价网络AEN,动作选择网络ASN和随机动作修改器(SAM)组成,动作选择网络ASN采用基于递阶遗传算法(HGA)的模糊自适应控制器,它可以利用控制基因删除多余的模糊集合和控制规则,并可以增加隶属函数的弹性,优化了模糊自适应控制网络的结构和参数。 (3)提出了一种应用于多Agent系统的改进的分布式Q-学习算法。Agent在学习过程中对其它Agent的行为进行观察与统计,可学习其它Agent的策略并获知该策略对环境的影响,确定其报酬函数和状态后继函数。改进后的分布式Q-学习算法通过对联合动作的统计来学习其它Agent的策略,并利用对其它Agent行动概率估计的方法保证了对联合最优动作的选择,在理论上保证了算法的收敛性。 (4)提出了一种多Agent环境下,通过共享经验策略构建环境模型(状态转移函数和报酬函数)的强化学习方法。Agent可以根据经验估计独立于任务的环境模型,通过使用环境模型加快学习速度。对多Agent分布式系统,Agent间通过共享经验策略加快了环境模型的构建,最后栅格环境下实验仿真证明了该算法是有效的和收敛的。

引用

页数：134

共 53 条

[1]

分布式强化学习理论及在多机器人中的应用研究 [D].

仲宇 .

哈尔滨工程大学,

2003

[2]

Sensor-based path planning for nonholonomic mobile robots subject to dynamic constraints [J].

Ge, Shuzhi Sam ;

Lai, Xue-Cheng ;

Al Mamun, Abdullah .

ROBOTICS AND AUTONOMOUS SYSTEMS, 2007, 55 (07) :513-526

[3]

Multi-Agent System Development Based on Organizations [J].

Argente, Estefania ;

Julian, Vicente ;

Botti, Vicente .

ELECTRONIC NOTES IN THEORETICAL COMPUTER SCIENCE, 2006, 150 (03) :55-71

[4]

The real-time urban traffic control system CRONOS:: Algorithm and experiments [J].

Boillot, Florence ;

Midenet, Sophie ;

Pierrelee, Jean-Claude .

TRANSPORTATION RESEARCH PART C-EMERGING TECHNOLOGIES, 2006, 14 (01) :18-38

[5]

Evolutionary computing based mobile robot localization [J].

Kwok, N. M. ;

Liu, D. K. ;

Dissanayake, G. .

ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2006, 19 (08) :857-868

[6]

The maximum fuzzy weighted matching models and hybrid genetic algorithm [J].

Liu, Linzhong ;

Li, Yinzhen ;

Yang, Lixing .

APPLIED MATHEMATICS AND COMPUTATION, 2006, 181 (01) :662-674

[7]

Individualization of pharmacological anemia management using reinforcement learning.[J].Adam E. Gaweda;Mehmet K. Muezzinoglu;George R. Aronoff;Alfred A. Jacobs;Jacek M. Zurada;Michael E. Brier.Neural Networks.2005, 5

[8]

Determination of the optimal values of parameters in reinforcement learning for mobile robot navigation by a genetic algorithm.[J].Keiji Kamei;Masumi Ishikawa.International Congress Series.2004,

[9]

When a genetic algorithm outperforms hill-climbing [J].

Prügel-Bennett, A .

THEORETICAL COMPUTER SCIENCE, 2004, 320 (01) :135-153

[10]

Integration of building simulation and agent simulation for exploration to environmentally symbiotic architecture [J].

Fujii, H ;

Tanimoto, J .

BUILDING AND ENVIRONMENT, 2004, 39 (08) :885-893

← 1 2 3 4 5 6 →