基于自适应归一化RBF网络的Q-V值函数协同逼近模型

被引:9
作者
刘全 [1 ,2 ,3 ]
肖飞 [1 ]
傅启明 [1 ]
伏玉琛 [1 ]
周小科 [1 ]
朱斐 [1 ,2 ]
机构
[1] 苏州大学计算机科学与技术学院
[2] 吉林大学符号计算与知识工程教育部重点实验室
[3] 江苏省软件新技术与产业化协同创新中心
关键词
强化学习; 函数逼近; 径向基函数; 灾难性扰动; 协同逼近;
D O I
暂无
中图分类号
TP183 [人工神经网络与计算];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能.
引用
收藏
页码:1386 / 1396
页数:11
相关论文
共 11 条
[1]   一种基于启发式奖赏函数的分层强化学习方法 [J].
刘全 ;
闫其粹 ;
伏玉琛 ;
胡道京 ;
龚声蓉 .
计算机研究与发展, 2011, 48 (12) :2352-2358
[2]   最小状态变元平均奖赏的强化学习方法 [J].
刘全 ;
傅启明 ;
龚声蓉 ;
伏玉琛 ;
崔志明 .
通信学报, 2011, 32 (01) :66-71
[3]   并行强化学习算法及其应用研究 [J].
孟伟 ;
韩学东 .
计算机工程与应用 , 2009, (34) :25-28+52
[4]   基于节点生长k-均值聚类算法的强化学习方法 [J].
陈宗海 ;
文锋 ;
聂建斌 ;
吴晓曙 .
计算机研究与发展, 2006, (04) :661-666
[5]   Temporal-difference search in computer Go [J].
Silver, David ;
Sutton, Richard S. ;
Mueller, Martin .
MACHINE LEARNING, 2012, 87 (02) :183-219
[6]  
Reinforcement distribution in fuzzy Q-learning[J] . Andrea Bonarini,Alessandro Lazaric,Francesco Montrone,Marcello Restelli.Fuzzy Sets and Systems . 2008 (10)
[7]  
Restricted gradient-descent algorithm for value-function approximation in reinforcement learning[J] . André da Motta Salles Barreto,Charles W. Anderson.Artificial Intelligence . 2007 (4)
[8]  
Kernel-Based Reinforcement Learning[J] . Machine Learning . 2002 (2)
[9]   On the convergence of temporal-difference learning with linear function approximation [J].
Tadic, V .
MACHINE LEARNING, 2001, 42 (03) :241-267
[10]  
Parametric value function approximation: Aunified view .2 Geist M,Pietquin O. Proceedings of the2011IEEE Symposium on Adaptive Dynamic Programming andReinforcement Learning . 2011