强化学习理论、算法及应用

被引:81
作者
张汝波
顾国昌
刘照德
王醒策
机构
[1] 哈尔滨工程大学计算机系!哈尔滨
[2] 不详
基金
黑龙江省自然科学基金;
关键词
强化学习; 瞬时差分法; Q-学习; 自适应启发评价; 智能控制系统;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ;最后讨论了强化学习目前所要研究的问题
引用
收藏
页码:637 / 642
页数:6
相关论文
共 24 条