强化学习理论、算法及应用

被引：81

作者：

张汝波

顾国昌

刘照德

王醒策

机构：

[1] 哈尔滨工程大学计算机系!哈尔滨

[2] 不详

来源：

控制理论与应用 | 2000年 / 05期

基金：

黑龙江省自然科学基金;

关键词：

强化学习; 瞬时差分法; Q-学习; 自适应启发评价; 智能控制系统;

D O I：

暂无

中图分类号：

TP18 [人工智能理论];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ;最后讨论了强化学习目前所要研究的问题

引用

页码：637 / 642

页数：6

共 24 条

[1] 基于强化学习的智能机器人避碰方法研究
张汝波
周宁
顾国昌
张国印
[J]. 机器人, 1999, (03) : 45 - 50
[2] Q学习算法中网格离散化方法的收敛性分析
蒋国飞
高慧琪
吴沧浦
[J]. 控制理论与应用, 1999, (02) : 194 - 198
[3] 基于Q学习算法和BP神经网络的倒立摆控制
蒋国飞
吴沧浦
[J]. 自动化学报, 1998, (05) : 88 - 92
[4] 加强学习
郭茂祖
陈彬
王晓龙
洪家荣
[J]. 计算机科学, 1998, (03) : 13 - 15
[5] 再励学习控制器结构与算法
马莉
蔡自兴
[J]. 模式识别与人工智能, 1998, 11 (01) : 96 - 100
[6] 强化学习系统及其基于可靠度最优的学习算法
俞星星
阎平凡
[J]. 信息与控制, 1997, (05) : 13 - 20
[7] 用加强学习方法解决基于神经网络的时序实时建模问题
杨璐，洪家荣，黄梯云
[J]. 哈尔滨工业大学学报, 1996, (04) : 136 - 139
[8] Linear Least-Squares algorithms for temporal difference learning[J] . Steven J. Bradtke,Andrew G. Barto.Machine Learning . 1996 (1)
[9] Reinforcement learning with replacing eligibility traces[J] . Satinder P. Singh,Richard S. Sutton.Machine Learning . 1996 (1)
[10] Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)

← 1 2 3 →