神经网络增强学习的梯度算法研究

被引：22

作者：

徐昕

贺汉根

机构：

[1] 国防科学技术大学自动化研究所

来源：

计算机学报 | 2003年 / 02期

关键词：

增强学习; 神经网络; Markov决策过程; 值函数逼近; 梯度下降;

D O I：

暂无

中图分类号：

TP183 [人工神经网络与计算];

学科分类号：

摘要：

针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标 ,以实现对Markov决策过程最优值函数的逼近 .对算法的收敛性和近似最优策略的性能进行了理论分析 .通过Mountain Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能 .

引用

页码：227 / 233

页数：7

共 5 条

[1] Convergence results for single-step on-policy reinforcement-learning algorithms [J].

Singh, S ;

Jaakkola, T ;

Littman, ML ;

Szepesvári, C .

MACHINE LEARNING, 2000, 38 (03) :287-308

[2]

Elevator Group Control Using Multiple Reinforcement Learning Agents[J] . Robert H. Crites,Andrew G. Barto.Machine Learning . 1998 (2)

[3]

The loss from imperfect value functions in expectation-based and minimax-based tasks[J] . Matthias Heger.Machine Learning . 1996 (1)

[4]

Technical Note: Q-Learning[J] . Christopher J.C.H. Watkins,Peter Dayan.Machine Learning . 1992 (3)

[5]

Approximation by superpositions of a sigmoidal function[J] . G. Cybenko.Mathematics of Control, Signals and Systems . 1989 (4)

← 1 →