不确定性环境下基于进化算法的强化学习

被引:12
作者
刘海涛 [1 ]
洪炳熔 [1 ]
朴松昊 [1 ]
王雪梅 [2 ]
机构
[1] 哈尔滨工业大学计算机科学与技术学院
[2] 哈尔滨理工大学自动化学院
关键词
部分可观察马尔可夫决策过程; Q学习; Memetic算法; 信度状态; 隐状态;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法.
引用
收藏
页码:1356 / 1360
页数:5
相关论文
共 1 条
[1]   有教师的线性基本函数前向三层神经网络结构研究 [J].
高大启 .
计算机学报, 1998, (01) :80-86