Q学习算法在库存控制中的应用

被引:18
作者
蒋国飞
吴沧浦
机构
[1] 北京理工大学自动控制系
关键词
Q学习,马尔可夫决策过程,库存控制,连续状态和决策空间,探索策略;
D O I
10.16383/j.aas.1999.02.015
中图分类号
TP13 [自动控制理论];
学科分类号
0711 ; 071102 ; 0811 ; 081101 ; 081103 ;
摘要
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力.
引用
收藏
页码:96 / 101
页数:6
相关论文
empty
未找到相关数据