学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于节点生长k-均值聚类算法的强化学习方法
被引:12
作者
:
论文数:
引用数:
h-index:
机构:
陈宗海
论文数:
引用数:
h-index:
机构:
文锋
聂建斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
聂建斌
吴晓曙
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系
吴晓曙
机构
:
[1]
中国科学技术大学自动化系
来源
:
计算机研究与发展
|
2006年
/ 04期
关键词
:
强化学习;
k-均值聚类算法;
Sarsa学习;
连续状态表示;
D O I
:
暂无
中图分类号
:
TP181 [自动推理、机器学习];
学科分类号
:
摘要
:
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略.
引用
收藏
页码:661 / 666
页数:6
相关论文
共 3 条
[1]
一种基于增强学习的自适应控制方法
论文数:
引用数:
h-index:
机构:
顾冬雷
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
陈卫东
席裕庚
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
席裕庚
[J].
控制与决策,
2002,
(04)
: 473
-
475+479
[2]
The parti-game algorithm for variable resolution reinforcement learning in multidimensional state-spaces
Moore, AW
论文数:
0
引用数:
0
h-index:
0
机构:
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
Moore, AW
Atkeson, CG
论文数:
0
引用数:
0
h-index:
0
机构:
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
Atkeson, CG
[J].
MACHINE LEARNING,
1995,
21
(03)
: 199
-
233
[3]
Reinforcement learning with replacing eligibility traces[J] . Satinder P. Singh,Richard S. Sutton.Machine Learning . 1996 (1)
←
1
→
共 3 条
[1]
一种基于增强学习的自适应控制方法
论文数:
引用数:
h-index:
机构:
顾冬雷
陈卫东
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
陈卫东
席裕庚
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学自动化研究所
席裕庚
[J].
控制与决策,
2002,
(04)
: 473
-
475+479
[2]
The parti-game algorithm for variable resolution reinforcement learning in multidimensional state-spaces
Moore, AW
论文数:
0
引用数:
0
h-index:
0
机构:
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
Moore, AW
Atkeson, CG
论文数:
0
引用数:
0
h-index:
0
机构:
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
GEORGIA INST TECHNOL,COLL COMP,ATLANTA,GA 30332
Atkeson, CG
[J].
MACHINE LEARNING,
1995,
21
(03)
: 199
-
233
[3]
Reinforcement learning with replacing eligibility traces[J] . Satinder P. Singh,Richard S. Sutton.Machine Learning . 1996 (1)
←
1
→