概率近似正确的强化学习算法解决连续状态空间控制问题

被引:4
作者
朱圆恒
赵冬斌
机构
[1] 中国科学院自动化研究所复杂系统管理与控制国家重点实验室
关键词
强化学习; 概率近似正确; kd树; 双连杆机械臂;
D O I
暂无
中图分类号
TP18 [人工智能理论]; TP273 [自动控制、自动控制系统];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 080201 ;
摘要
在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较.
引用
收藏
页码:1603 / 1613
页数:11
相关论文
共 8 条
[1]   深度强化学习综述:兼论计算机围棋的发展 [J].
赵冬斌 ;
邵坤 ;
朱圆恒 ;
李栋 ;
陈亚冉 ;
王海涛 ;
刘德荣 ;
周彤 ;
王成红 .
控制理论与应用, 2016, 33 (06) :701-717
[2]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[3]   强化学习理论、算法及应用 [J].
张汝波 ;
顾国昌 ;
刘照德 ;
王醒策 .
控制理论与应用, 2000, (05) :637-642
[4]   Q学习算法中网格离散化方法的收敛性分析 [J].
蒋国飞 ;
高慧琪 ;
吴沧浦 .
控制理论与应用, 1999, (02) :194-198
[5]   Adaptive-resolution reinforcement learning with polynomial exploration in deterministic domains [J].
Bernstein, Andrey ;
Shimkin, Nahum .
MACHINE LEARNING, 2010, 81 (03) :359-397
[6]   Near-Optimal Reinforcement Learning in Polynomial Time [J].
Michael Kearns ;
Satinder Singh .
Machine Learning, 2002, 49 :209-232
[7]   Variable Resolution Discretization in Optimal Control [J].
Rémi Munos ;
Andrew Moore .
Machine Learning, 2002, 49 :291-323
[8]   LEARNING FROM DELAYED REWARDS [J].
KROSE, BJA .
ROBOTICS AND AUTONOMOUS SYSTEMS, 1995, 15 (04) :233-235