基于Elman网络的非线性系统增强式学习控制

被引:17
作者
王雪松 [1 ]
程玉虎 [1 ]
易建强 [2 ]
王炜强 [1 ]
机构
[1] 中国矿业大学信息与电气工程学院
[2] 中国科学院自动化研究所
关键词
非线性系统; 增强学习; Q学习; Elman网络; 资格迹;
D O I
暂无
中图分类号
TP13 [自动控制理论]; TP18 [人工智能理论];
学科分类号
080201 [机械制造及其自动化]; 140502 [人工智能];
摘要
针对具有连续状态和未知系统模型的非线性系统控制问题,提出一种基于Elman神经网络的Q学习控制策略.利用Elman网络良好的动态特性及泛化能力,对状态-动作对的Q值进行在线估计,解决状态空间泛化中易出现的“维数灾”问题.借鉴TD(λ)算法中状态的资格迹机制,通过对权值向量定义对应的资格迹来加速神经网络的学习过程.将所提方法应用于具有连续状态的小车爬山控制问题,学习系统在经过大约60多次学习后即能获得小车爬山控制策略,仿真结果表明所提方法能够有效解决具有连续状态的非线性系统的无模型增强学习控制.
引用
收藏
页码:653 / 657
页数:5
相关论文
共 6 条
[1]
The parti-game algorithm for variable resolution reinforcement learning in multidimensional state-spaces [J].
Moore, AW ;
Atkeson, CG .
MACHINE LEARNING, 1995, 21 (03) :199-233
[2]
Technical Note: Q-Learning.[J].Christopher J.C.H. Watkins;Peter Dayan.Machine Learning.1992, 3
[3]
Learning to predict by the methods of temporal differences.[J].Richard S. Sutton.Machine Learning.1988, 1
[4]
机器学习的主要策略综述 [J].
闫友彪 ;
陈元琰 .
计算机应用研究, 2004, (07) :4-10+13
[5]
神经网络增强学习的梯度算法研究 [J].
徐昕 ;
贺汉根 .
计算机学报, 2003, (02) :227-233
[6]
基于Q学习算法和BP神经网络的倒立摆控制 [J].
蒋国飞 ;
吴沧浦 .
自动化学报, 1998, (05)