鸽子强化学习过程中内部学习状态的动态建模研究

被引:2
作者
师黎
陶梦妍
李志辉
机构
[1] 郑州大学电气工程学院
关键词
动态学习率; Q-Learning; 鸽子; 行为;
D O I
暂无
中图分类号
Q42 [神经生理学];
学科分类号
071006 ;
摘要
经典Q-learning强化学习模型中学习率为一固定参数,无法有效反映认知学习的动态过程。提出了一种将学习速率表征为时变参数的Q-Learning强化学习模型,给出了利用近期历史行为数据估计阶段性学习速率的方法。为了评估验证该模型的性能,设计了条件刺激与操作行为奖励无关→相关→无关三个阶段动态试验范式,用以观察和分析鸽子在随机强化、固定强化,以及固定强化关系消退等不同条件下的学习行为变化过程,采用动物触屏行为系统完成了3只鸽子颜色刺激-啄屏抉择认知训练,利用训练过程中不同session的行为数据对动态学习率进行了最小二乘估计。分析结果表明:可以获得更小的行为预测误差,误差下降收敛的速度更快,同时学习率的动态变化过程可以有效的反映动物认知行为训练过程中的内在学习状态。
引用
收藏
页码:120 / 125
页数:6
相关论文
共 12 条
[1]  
Reinforcement Learning: An Introduction. Sutton, R.S.,Barto, A.G. Neural Networks, IEEE Transactions on . 1998
[2]  
Interactive model building fo Q-learning. Laber E B,Linn K A,Stefanski L A. Biometrika . 2014
[3]   基于情感计算和Q-learning的agent自主追逐行为过程研究 [J].
李木军 ;
刘箴 ;
林君焕 ;
于力鹏 .
计算机应用研究, 2014, 31 (06) :1710-1713+1718
[4]   模拟昆虫视觉-行为抉择的强化学习模型 [J].
马奇 ;
张立明 .
生物物理学报, 2008, (03) :211-220
[5]  
The visual pigments, oil droplets and spectral sensitivity of the pigeon. J.K. Bowmaker. Vision Research . 1977
[6]  
Co-FQL: Anomaly detection using cooperative fuzzy Q-learning in network[J] . Shahaboddin Shamshirband,Babak Daghighi,Nor Badrul Anuar,Miss Laiha Mat Kiah,Ahmed Patel,Ajith Abraham. &nbspJournal of Intelligent & Fuzzy Systems . 2015 (3)
[7]  
Reinforcement learning in the brain[J] . Yael Niv. &nbspJournal of Mathematical Psychology . 2008 (3)
[8]   Reward magnitude and timing in pigeons [J].
Ludvig, Elliot A. ;
Balci, Fuat ;
Spetch, Marcia L. .
BEHAVIOURAL PROCESSES, 2011, 86 (03) :359-363
[9]  
Stimulus control in a go/no-go procedure with compound stimuli with pigeons[J] . Heloísa C. Campos,Paula Debert,Karen Lionello-DeNolf,William J. McIlvane. &nbspBehavioural Processes . 2015
[10]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100