Q学习算法在库存控制中的应用

被引：18

作者：

蒋国飞

吴沧浦

机构：

[1] 北京理工大学自动控制系

来源：

自动化学报 | 1999年 / 02期

关键词：

Q学习，马尔可夫决策过程，库存控制，连续状态和决策空间，探索策略;

D O I：

10.16383/j.aas.1999.02.015

中图分类号：

TP13 [自动控制理论];

学科分类号：

0711 ; 071102 ; 0811 ; 081101 ; 081103 ;

摘要：

Ｑ学习算法是Ｗａｔｋｉｎｓ提出的求解信息不完全马尔可夫决策问题的一种强化学习方法．这里提出了一种新的探索策略，并将该策略和Ｑ学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题．仿真表明，该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近，从而证实了Ｑ学习算法在一些系统模型未知的工程控制问题中的应用潜力．

引用

页码：96 / 101

页数：6