基于Q学习算法和BP神经网络的倒立摆控制

被引：46

作者：

蒋国飞

吴沧浦

机构：

[1] 北京理工大学自动控制系

来源：

自动化学报 | 1998年 / 05期

关键词：

Q学习，BP网络，学习控制，倒立摆系统，高斯噪声;

D O I：

10.16383/j.aas.1998.05.014

中图分类号：

TP273.22,TP18 [];

学科分类号：

摘要：

Ｑ学习是Ｗａｔｋｉｎｓ［１］提出的求解信息不完全马尔可夫决策问题的一种强化学习方法．将Ｑ学习算法和ＢＰ神经网络有效结合，实现了状态未离散化的倒立摆的无模型学习控制．仿真表明：该方法不仅能成功解决确定和随机倒立摆模型的平衡控制，而且和Ａｎｄｅｒｓｏｎ［２］的ＡＨＣ（ＡｄａｐｔｉｖｅＨｅｕｒｉｓｔｉｃＣｒｉｔｉｃ）等方法相比，具有更好的学习效果．

引用

页码：88 / 92

页数：5