强化学习与监督学习不同之处在于,它不需要教师信号,又不同于仅能完成极其有限功能的无监督学习在学习过程中得不到任何提示,它强调与环境的交互过程中获得评价性反馈信号,利用评价信息来实现行为决策的优化。它采用人类和动物学习中的“行动—评价—改进”机制,与动物学习理论、认知科学、自动学习机等有密切的关系,对于求解无法获得教师信号的复杂优化与决策问题具有更广泛的应用前景,近年来在人工智能研究领域受到了国内外学者越来越多的重视。
鉴于运动平衡控制问题对于机器人主体研究的重要性,我们对运动平衡控制技能的认知问题进行了特别的研究。本课题主要以强化学习为研究对象,在已有强化学习算法的基础上加以改进和提高,提出了自己研究的学习系统,并应用到对倒立摆系统的平衡控制中。目的使智能控制系统具有学习能力,能在系统运行过程中逐步获取新信息,具有类似人类和动物的运动控制技能。其研究成果可广泛应用于机器学习、自动控制、机器人学等诸多领域。论文取得以下主要成果:
(1)在表格型Q学习算法的基础上,提出了一种基于神经网络的改进的Q学习方法。该学习方法采用神经网络逼近Q值函数,同时采用一种Boltzman分布的SoftMax行为选择策略。它完成了具有连续状态和离散动作的学习控制任务,一级倒立摆系统的仿真实验,验证了该学习系统的有效性。
(2)在强化学习和动态规划算法的基础上,提出了一种基于内部回归神经网络的强化学习系统(Reinforcement Learning System based on Internally Recurrent Nets, RLSIRN)。RLSIRN 不需要预测和辨识模型,在模型未知和没有先验经验的条件下,能通过自身神经网络的在线学习,有效实现了对具有连续状态和连续行为空间任务的控制。通过一级和二级倒立摆系统的仿真实验验证,结果表明了该学习算法在性能上优于其它同类强化学习算法。同时将RLSIRN应用到一级倒立摆物理实体的控制中,实验取得了较好的控制效果。
(3)在基于RLSIRN 的基础上,改变了评价和动作神经网络的网络结构,同时采用权值的适合度轨迹(Eligibility Traces)来加速学习过程。通过倒立摆系统的仿真实验比较了这两个学习系统。