学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种基于启发式轮廓表的逻辑强化学习方法
被引:7
作者
:
刘全
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
苏州大学计算机科学与技术学院
南京大学软件新技术国家重点实验室
刘全
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
高阳
[
1
]
陈道蓄
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
南京大学软件新技术国家重点实验室
陈道蓄
[
1
]
孙吉贵
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学符号计算与知识工程教育部重点实验室
南京大学软件新技术国家重点实验室
孙吉贵
[
3
]
论文数:
引用数:
h-index:
机构:
姚望舒
[
2
]
机构
:
[1]
南京大学软件新技术国家重点实验室
[2]
苏州大学计算机科学与技术学院
[3]
吉林大学符号计算与知识工程教育部重点实验室
来源
:
计算机研究与发展
|
2008年
/ 11期
关键词
:
维数灾;
启发式轮廓表;
谓词;
逻辑强化学习;
CCLORRL算法;
D O I
:
暂无
中图分类号
:
TP18 [人工智能理论];
学科分类号
:
081104 ;
0812 ;
0835 ;
1405 ;
摘要
:
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的.
引用
收藏
页码:1824 / 1830
页数:7
相关论文
共 3 条
[1]
一种基于集合符号的自动推理扩展方法
[J].
刘全
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
苏州大学计算机科学与技术学院
刘全
;
伏玉琛
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
苏州大学计算机科学与技术学院
伏玉琛
;
孙吉贵
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学符号计算与知识工程教育部重点实验室
苏州大学计算机科学与技术学院
孙吉贵
;
论文数:
引用数:
h-index:
机构:
崔志明
;
龚声蓉
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
苏州大学计算机科学与技术学院
龚声蓉
;
论文数:
引用数:
h-index:
机构:
凌兴宏
.
计算机研究与发展,
2007,
(08)
:1317
-1323
[2]
强化学习研究综述
[J].
论文数:
引用数:
h-index:
机构:
高阳
;
论文数:
引用数:
h-index:
机构:
陈世福
;
论文数:
引用数:
h-index:
机构:
陆鑫
.
自动化学报,
2004,
(01)
:86
-100
[3]
Recent Advances in Hierarchical Reinforcement Learning[J] . Andrew G. Barto,Sridhar Mahadevan.Discrete Event Dynamic Systems . 2003 (1)
←
1
→
共 3 条
[1]
一种基于集合符号的自动推理扩展方法
[J].
刘全
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
苏州大学计算机科学与技术学院
刘全
;
伏玉琛
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
苏州大学计算机科学与技术学院
伏玉琛
;
孙吉贵
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学符号计算与知识工程教育部重点实验室
苏州大学计算机科学与技术学院
孙吉贵
;
论文数:
引用数:
h-index:
机构:
崔志明
;
龚声蓉
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
苏州大学计算机科学与技术学院
龚声蓉
;
论文数:
引用数:
h-index:
机构:
凌兴宏
.
计算机研究与发展,
2007,
(08)
:1317
-1323
[2]
强化学习研究综述
[J].
论文数:
引用数:
h-index:
机构:
高阳
;
论文数:
引用数:
h-index:
机构:
陈世福
;
论文数:
引用数:
h-index:
机构:
陆鑫
.
自动化学报,
2004,
(01)
:86
-100
[3]
Recent Advances in Hierarchical Reinforcement Learning[J] . Andrew G. Barto,Sridhar Mahadevan.Discrete Event Dynamic Systems . 2003 (1)
←
1
→