一种基于启发式轮廓表的逻辑强化学习方法

被引:7
作者
刘全 [1 ,2 ]
高阳 [1 ]
陈道蓄 [1 ]
孙吉贵 [3 ]
姚望舒 [2 ]
机构
[1] 南京大学软件新技术国家重点实验室
[2] 苏州大学计算机科学与技术学院
[3] 吉林大学符号计算与知识工程教育部重点实验室
关键词
维数灾; 启发式轮廓表; 谓词; 逻辑强化学习; CCLORRL算法;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的.
引用
收藏
页码:1824 / 1830
页数:7
相关论文
共 3 条
[1]   一种基于集合符号的自动推理扩展方法 [J].
刘全 ;
伏玉琛 ;
孙吉贵 ;
崔志明 ;
龚声蓉 ;
凌兴宏 .
计算机研究与发展, 2007, (08) :1317-1323
[2]   强化学习研究综述 [J].
高阳 ;
陈世福 ;
陆鑫 .
自动化学报, 2004, (01) :86-100
[3]  
Recent Advances in Hierarchical Reinforcement Learning[J] . Andrew G. Barto,Sridhar Mahadevan.Discrete Event Dynamic Systems . 2003 (1)